Phantom: Создание согласованных с объектом видео через кросс-модальное выравнивание
Phantom: Subject-consistent video generation via cross-modal alignment
February 16, 2025
Авторы: Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu
cs.AI
Аннотация
Постоянное развитие базовых моделей для генерации видео находит применение в различных областях, при этом создание видео с сохранением согласованности объекта всё ещё находится на стадии исследования. Мы называем это "Subject-to-Video" — подход, который извлекает элементы объекта из эталонных изображений и генерирует видео с сохранением согласованности объекта на основе текстовых инструкций. Мы считаем, что суть Subject-to-Video заключается в балансировании двухмодальных подсказок — текста и изображения, что позволяет глубоко и одновременно согласовывать как текстовый, так и визуальный контент. Для достижения этой цели мы предлагаем Phantom — унифицированную структуру для генерации видео как на основе одного, так и нескольких объектов. Опираясь на существующие архитектуры для генерации видео из текста и изображений, мы переработали модель совместного ввода текста и изображения и обучили её выравниванию между модальностями с использованием данных в формате "текст-изображение-видео". Особое внимание мы уделяем сохранению согласованности объекта при генерации людей, охватывая существующие методы создания видео с сохранением идентичности и предлагая дополнительные преимущества. Домашняя страница проекта доступна по ссылке: https://phantom-video.github.io/Phantom/.
English
The continuous development of foundational models for video generation is
evolving into various applications, with subject-consistent video generation
still in the exploratory stage. We refer to this as Subject-to-Video, which
extracts subject elements from reference images and generates
subject-consistent video through textual instructions. We believe that the
essence of subject-to-video lies in balancing the dual-modal prompts of text
and image, thereby deeply and simultaneously aligning both text and visual
content. To this end, we propose Phantom, a unified video generation framework
for both single and multi-subject references. Building on existing
text-to-video and image-to-video architectures, we redesign the joint
text-image injection model and drive it to learn cross-modal alignment via
text-image-video triplet data. In particular, we emphasize subject consistency
in human generation, covering existing ID-preserving video generation while
offering enhanced advantages. The project homepage is here
https://phantom-video.github.io/Phantom/.Summary
AI-Generated Summary