Phantom-Data: Rumo a um Conjunto de Dados Geral e Consistente para Geração de Vídeos
Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset
June 23, 2025
Autores: Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu
cs.AI
Resumo
A geração de vídeos a partir de sujeitos tem testemunhado progressos substanciais nos últimos anos. No entanto, os modelos existentes ainda enfrentam desafios significativos em seguir fielmente instruções textuais. Essa limitação, comumente conhecida como o problema de copiar e colar, surge do paradigma de treinamento em pares amplamente utilizado. Essa abordagem intrinsecamente entrelaça a identidade do sujeito com atributos de fundo e contextuais ao amostrar imagens de referência da mesma cena do vídeo alvo. Para resolver esse problema, introduzimos o Phantom-Data, o primeiro conjunto de dados de consistência de sujeito para vídeo de propósito geral entre pares cruzados, contendo aproximadamente um milhão de pares com identidade consistente em diversas categorias. Nosso conjunto de dados é construído por meio de um pipeline de três estágios: (1) um módulo de detecção de sujeito geral e alinhado à entrada, (2) recuperação de sujeitos em grande escala e em contextos cruzados de mais de 53 milhões de vídeos e 3 bilhões de imagens, e (3) verificação de identidade guiada por prioridades para garantir consistência visual sob variação contextual. Experimentos abrangentes mostram que o treinamento com o Phantom-Data melhora significativamente o alinhamento ao prompt e a qualidade visual, mantendo a consistência de identidade em paridade com as linhas de base em pares.
English
Subject-to-video generation has witnessed substantial progress in recent
years. However, existing models still face significant challenges in faithfully
following textual instructions. This limitation, commonly known as the
copy-paste problem, arises from the widely used in-pair training paradigm. This
approach inherently entangles subject identity with background and contextual
attributes by sampling reference images from the same scene as the target
video. To address this issue, we introduce Phantom-Data, the first
general-purpose cross-pair subject-to-video consistency dataset, containing
approximately one million identity-consistent pairs across diverse categories.
Our dataset is constructed via a three-stage pipeline: (1) a general and
input-aligned subject detection module, (2) large-scale cross-context subject
retrieval from more than 53 million videos and 3 billion images, and (3)
prior-guided identity verification to ensure visual consistency under
contextual variation. Comprehensive experiments show that training with
Phantom-Data significantly improves prompt alignment and visual quality while
preserving identity consistency on par with in-pair baselines.