ChatPaper.aiChatPaper

Phantom : Génération de vidéos cohérentes avec le sujet via un alignement intermodal

Phantom: Subject-consistent video generation via cross-modal alignment

February 16, 2025
Auteurs: Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu
cs.AI

Résumé

Le développement continu des modèles de base pour la génération de vidéos évolue vers diverses applications, avec la génération de vidéos cohérentes par sujet encore au stade exploratoire. Nous désignons cela par le terme Subject-to-Video, qui extrait les éléments du sujet à partir d'images de référence et génère des vidéos cohérentes par sujet grâce à des instructions textuelles. Nous pensons que l'essence du Subject-to-Video réside dans l'équilibre des prompts bimodaux de texte et d'image, permettant ainsi un alignement profond et simultané du contenu textuel et visuel. À cette fin, nous proposons Phantom, un cadre unifié de génération de vidéos pour des références à un seul ou à plusieurs sujets. En nous appuyant sur les architectures existantes de text-to-video et d'image-to-video, nous repensons le modèle d'injection conjointe texte-image et le poussons à apprendre l'alignement intermodal via des données triplets texte-image-vidéo. En particulier, nous mettons l'accent sur la cohérence du sujet dans la génération humaine, couvrant la génération de vidéos préservant l'identité tout en offrant des avantages améliorés. La page d'accueil du projet est disponible ici : https://phantom-video.github.io/Phantom/.
English
The continuous development of foundational models for video generation is evolving into various applications, with subject-consistent video generation still in the exploratory stage. We refer to this as Subject-to-Video, which extracts subject elements from reference images and generates subject-consistent video through textual instructions. We believe that the essence of subject-to-video lies in balancing the dual-modal prompts of text and image, thereby deeply and simultaneously aligning both text and visual content. To this end, we propose Phantom, a unified video generation framework for both single and multi-subject references. Building on existing text-to-video and image-to-video architectures, we redesign the joint text-image injection model and drive it to learn cross-modal alignment via text-image-video triplet data. In particular, we emphasize subject consistency in human generation, covering existing ID-preserving video generation while offering enhanced advantages. The project homepage is here https://phantom-video.github.io/Phantom/.

Summary

AI-Generated Summary

PDF603February 19, 2025