Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье представлена управляемая модель генерации видео из текста (text-to-video, T2V), названная Video-ControlNet, которая создает видео на основе последовательности управляющих сигналов, таких как карты границ или глубины. Video-ControlNet построена на предварительно обученной условной модели генерации изображений из текста (text-to-image, T2I) путем внедрения пространственно-временного механизма самовнимания и обучаемых временных слоев для эффективного моделирования между кадрами. Предложена стратегия кондиционирования по первому кадру, которая позволяет модели генерировать видео, перенесенные из области изображений, а также видео произвольной длины в авторегрессивном режиме. Кроме того, Video-ControlNet использует новую стратегию инициализации шума на основе остатков для внесения предварительной информации о движении из входного видео, что позволяет создавать более согласованные видео. Благодаря предложенной архитектуре и стратегиям, Video-ControlNet достигает ресурсоэффективной сходимости и генерирует видео высокого качества с детализированным управлением. Многочисленные эксперименты демонстрируют успешное применение модели в различных задачах генерации видео, таких как редактирование видео и перенос стиля, превосходя предыдущие методы по согласованности и качеству. Страница проекта: https://controlavideo.github.io/
Современные модели генерации изображений по текстовому описанию продемонстрировали впечатляющую способность создавать изображения, соответствующие тексту, с высокой точностью. Однако генерация изображений новых концепций, предоставленных пользователем в виде входного изображения, остается сложной задачей. Для решения этой проблемы исследователи изучают различные методы адаптации предварительно обученных моделей генерации изображений по тексту. В настоящее время большинство существующих методов адаптации таких моделей предполагают использование техник регуляризации для предотвращения переобучения. Хотя регуляризация облегчает задачу адаптации и способствует успешному созданию контента в соответствии с текстовым описанием, она может ограничивать возможности модели, приводя к потере детальной информации и ухудшению производительности. В данной работе мы предлагаем новый фреймворк для персонализированной генерации изображений по тексту без использования регуляризации. В частности, наш фреймворк включает в себя сеть-кодировщик и новый метод сэмплирования, который позволяет решить проблему переобучения без применения регуляризации. С помощью предложенного фреймворка мы можем адаптировать крупномасштабную модель генерации изображений по тексту менее чем за полминуты на одном графическом процессоре, используя только одно изображение, предоставленное пользователем. Эксперименты показывают, что наш фреймворк превосходит существующие методы и сохраняет более детализированные элементы.