ChatPaper.aiChatPaper

Phantom: Geração de vídeo consistente com o sujeito por meio de alinhamento multimodal

Phantom: Subject-consistent video generation via cross-modal alignment

February 16, 2025
Autores: Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu
cs.AI

Resumo

O desenvolvimento contínuo de modelos fundamentais para geração de vídeos está evoluindo para diversas aplicações, com a geração de vídeos consistentes em relação ao sujeito ainda em fase exploratória. Nós nos referimos a isso como Sujeito-para-Vídeo, que extrai elementos do sujeito a partir de imagens de referência e gera vídeos consistentes com o sujeito por meio de instruções textuais. Acreditamos que a essência do sujeito-para-vídeo reside em equilibrar os prompts bimodais de texto e imagem, alinhando profundamente e simultaneamente tanto o conteúdo textual quanto o visual. Para isso, propomos o Phantom, um framework unificado de geração de vídeos para referências de um único sujeito e de múltiplos sujeitos. Com base nas arquiteturas existentes de texto-para-vídeo e imagem-para-vídeo, redesenhamos o modelo de injeção conjunta de texto e imagem e o conduzimos a aprender o alinhamento multimodal por meio de dados triplos de texto-imagem-vídeo. Em particular, enfatizamos a consistência do sujeito na geração de humanos, abrangendo a geração de vídeos com preservação de identidade existente enquanto oferece vantagens aprimoradas. A página do projeto está disponível em https://phantom-video.github.io/Phantom/.
English
The continuous development of foundational models for video generation is evolving into various applications, with subject-consistent video generation still in the exploratory stage. We refer to this as Subject-to-Video, which extracts subject elements from reference images and generates subject-consistent video through textual instructions. We believe that the essence of subject-to-video lies in balancing the dual-modal prompts of text and image, thereby deeply and simultaneously aligning both text and visual content. To this end, we propose Phantom, a unified video generation framework for both single and multi-subject references. Building on existing text-to-video and image-to-video architectures, we redesign the joint text-image injection model and drive it to learn cross-modal alignment via text-image-video triplet data. In particular, we emphasize subject consistency in human generation, covering existing ID-preserving video generation while offering enhanced advantages. The project homepage is here https://phantom-video.github.io/Phantom/.

Summary

AI-Generated Summary

PDF603February 19, 2025