Phantom: Generazione di video coerenti con il soggetto tramite allineamento cross-modale
Phantom: Subject-consistent video generation via cross-modal alignment
February 16, 2025
Autori: Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu
cs.AI
Abstract
Il continuo sviluppo di modelli di base per la generazione di video si sta evolvendo in varie applicazioni, con la generazione di video coerenti rispetto al soggetto ancora in fase esplorativa. Ci riferiamo a questo come Subject-to-Video, che estrae elementi del soggetto da immagini di riferimento e genera video coerenti rispetto al soggetto attraverso istruzioni testuali. Crediamo che l'essenza del subject-to-video risieda nel bilanciare i prompt bimodali di testo e immagine, allineando così profondamente e simultaneamente sia il contenuto testuale che quello visivo. A tal fine, proponiamo Phantom, un framework unificato per la generazione di video sia con riferimenti a singoli che a più soggetti. Basandoci sulle architetture esistenti di text-to-video e image-to-video, ridisegniamo il modello di iniezione congiunta testo-immagine e lo guidiamo a imparare l'allineamento cross-modale attraverso dati triplette di testo-immagine-video. In particolare, enfatizziamo la coerenza del soggetto nella generazione umana, coprendo la generazione di video con preservazione dell'ID esistente mentre offriamo vantaggi migliorati. La homepage del progetto è disponibile qui https://phantom-video.github.io/Phantom/.
English
The continuous development of foundational models for video generation is
evolving into various applications, with subject-consistent video generation
still in the exploratory stage. We refer to this as Subject-to-Video, which
extracts subject elements from reference images and generates
subject-consistent video through textual instructions. We believe that the
essence of subject-to-video lies in balancing the dual-modal prompts of text
and image, thereby deeply and simultaneously aligning both text and visual
content. To this end, we propose Phantom, a unified video generation framework
for both single and multi-subject references. Building on existing
text-to-video and image-to-video architectures, we redesign the joint
text-image injection model and drive it to learn cross-modal alignment via
text-image-video triplet data. In particular, we emphasize subject consistency
in human generation, covering existing ID-preserving video generation while
offering enhanced advantages. The project homepage is here
https://phantom-video.github.io/Phantom/.Summary
AI-Generated Summary