Phantom: Generación de videos coherentes con el sujeto mediante alineación multimodal
Phantom: Subject-consistent video generation via cross-modal alignment
February 16, 2025
Autores: Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu
cs.AI
Resumen
El desarrollo continuo de modelos fundamentales para la generación de videos está evolucionando hacia diversas aplicaciones, con la generación de videos consistentes en el sujeto aún en etapa exploratoria. Nos referimos a esto como Subject-to-Video, que extrae elementos del sujeto de imágenes de referencia y genera videos consistentes con el sujeto a través de instrucciones textuales. Creemos que la esencia de Subject-to-Video radica en equilibrar los estímulos bimodales de texto e imagen, alineando profundamente y simultáneamente tanto el contenido textual como el visual. Para ello, proponemos Phantom, un marco unificado de generación de videos para referencias de uno o varios sujetos. Basándonos en las arquitecturas existentes de texto-a-video e imagen-a-video, rediseñamos el modelo de inyección conjunta de texto e imagen y lo impulsamos a aprender la alineación multimodal mediante datos triples de texto-imagen-video. En particular, enfatizamos la consistencia del sujeto en la generación humana, cubriendo la generación de videos con preservación de identidad existente mientras ofrecemos ventajas mejoradas. La página del proyecto está aquí https://phantom-video.github.io/Phantom/.
English
The continuous development of foundational models for video generation is
evolving into various applications, with subject-consistent video generation
still in the exploratory stage. We refer to this as Subject-to-Video, which
extracts subject elements from reference images and generates
subject-consistent video through textual instructions. We believe that the
essence of subject-to-video lies in balancing the dual-modal prompts of text
and image, thereby deeply and simultaneously aligning both text and visual
content. To this end, we propose Phantom, a unified video generation framework
for both single and multi-subject references. Building on existing
text-to-video and image-to-video architectures, we redesign the joint
text-image injection model and drive it to learn cross-modal alignment via
text-image-video triplet data. In particular, we emphasize subject consistency
in human generation, covering existing ID-preserving video generation while
offering enhanced advantages. The project homepage is here
https://phantom-video.github.io/Phantom/.Summary
AI-Generated Summary