Развитие индустрии ИИ-систем для создания художественных произведений на основе абстрактных описаний приобрело темпы, которые удивляют даже их создателей. Новые приложения выходят каждые несколько месяцев, демонстрируя все более высокое качество работы — но при этом становятся все менее управляемыми. В качестве примера подойдет непростая судьба проекта «Imagen Video».

Компания Google представила первые работы нового ИИ «Imagen Video», который способен синтезировать HD-видео в разрешении 1280×768 с частотой 24 кадра в секунду на основе простых текстовых описаний. Эта система умеет строить полноценные 3D-модели произвольных объектов для создания сложных сцен и демонстрации их с разных ракурсов. Она умеет имитировать стили живописи известных художников, разбирается в абстрактных понятиях и может смонтировать видео из несуществующих объектов. Например, пролет зонда через поля боя космических пиратов с неведомыми пришельцами.

Принцип действия Imagen Video построен на каскаде из семи уровней, где на первом создается максимально простая модель визуализации текстового задания. Затем, в зависимости от поставленной задачи, картинка шаг за шагом улучшается, получает нужные эффекты, анимацию и т.д. ИИ прошел обучение на базе данных LAION-400M, в которой содержится порядка 14 млн. пар комбинаций «описание+видео» и 60 млн. пар «текст+картинка», но в этом как раз его главная уязвимость.

Для полноты охвата накопленной человечеством культурной базы LAION-400M сделали открытой базой данных, поэтому в ней оказалось немало контента, который по цензурным соображениям демонстрировать не стоит. Увы, исключить его также нельзя, иначе ИИ утратит способность адекватно распознавать запросы. Например, чтобы показать сострадание, нужно уметь понимать, что такое боль и мучения. В Google пока не смогли найти решение для этой непростой задачи, поэтому отложили публикацию кода Imagen Video и открытие доступа к этому ИИ на неопределенное время.


Источник &#8212 Imagen Video