ChatPaper.aiChatPaper

Phantom: Onderwerp-consistente videogeneratie via kruismodale uitlijning

Phantom: Subject-consistent video generation via cross-modal alignment

February 16, 2025
Auteurs: Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu
cs.AI

Samenvatting

De voortdurende ontwikkeling van fundamentele modellen voor videogeneratie evolueert naar diverse toepassingen, waarbij onderwerp-consistente videogeneratie zich nog in de verkennende fase bevindt. Wij verwijzen hiernaar als Subject-to-Video, waarbij onderwerpelementen uit referentiebeelden worden geëxtraheerd en onderwerp-consistente video wordt gegenereerd via tekstuele instructies. Wij geloven dat de essentie van subject-to-video ligt in het balanceren van de duale modale prompts van tekst en beeld, waardoor zowel tekstuele als visuele inhoud diepgaand en gelijktijdig worden uitgelijnd. Hiertoe stellen wij Phantom voor, een uniform videogeneratiekader voor zowel enkele als meerdere onderwerp-referenties. Gebaseerd op bestaande tekst-naar-video en beeld-naar-video-architecturen, herontwerpen wij het gezamenlijke tekst-beeld-injectiemodel en laten het cross-modale uitlijning leren via tekst-beeld-video tripletdata. In het bijzonder benadrukken wij onderwerpconsistentie bij menselijke generatie, waarbij bestaande ID-behoudende videogeneratie wordt gedekt en tegelijkertijd verbeterde voordelen worden geboden. De projecthomepage is hier te vinden: https://phantom-video.github.io/Phantom/.
English
The continuous development of foundational models for video generation is evolving into various applications, with subject-consistent video generation still in the exploratory stage. We refer to this as Subject-to-Video, which extracts subject elements from reference images and generates subject-consistent video through textual instructions. We believe that the essence of subject-to-video lies in balancing the dual-modal prompts of text and image, thereby deeply and simultaneously aligning both text and visual content. To this end, we propose Phantom, a unified video generation framework for both single and multi-subject references. Building on existing text-to-video and image-to-video architectures, we redesign the joint text-image injection model and drive it to learn cross-modal alignment via text-image-video triplet data. In particular, we emphasize subject consistency in human generation, covering existing ID-preserving video generation while offering enhanced advantages. The project homepage is here https://phantom-video.github.io/Phantom/.

Summary

AI-Generated Summary

PDF603February 19, 2025