Phantom-Data: Verso un Dataset Generale per la Generazione di Video con Soggetto Coerente
Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset
June 23, 2025
Autori: Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu
cs.AI
Abstract
La generazione da soggetto a video ha registrato progressi significativi negli ultimi anni. Tuttavia, i modelli esistenti continuano a confrontarsi con sfide importanti nel seguire fedelmente le istruzioni testuali. Questa limitazione, comunemente nota come problema del copia-incolla, deriva dal paradigma di addestramento in coppia ampiamente utilizzato. Questo approccio intrinsecamente intreccia l'identità del soggetto con attributi contestuali e di sfondo campionando immagini di riferimento dalla stessa scena del video target. Per affrontare questo problema, introduciamo Phantom-Data, il primo dataset generale di coerenza da soggetto a video in coppie incrociate, contenente circa un milione di coppie con identità coerenti in diverse categorie. Il nostro dataset è costruito attraverso una pipeline in tre fasi: (1) un modulo di rilevamento del soggetto generale e allineato all'input, (2) un recupero su larga scala di soggetti in contesti incrociati da oltre 53 milioni di video e 3 miliardi di immagini, e (3) una verifica dell'identità guidata da prior per garantire la coerenza visiva sotto variazione contestuale. Esperimenti completi dimostrano che l'addestramento con Phantom-Data migliora significativamente l'allineamento alle istruzioni e la qualità visiva, mantenendo al contempo la coerenza dell'identità pari ai baseline in coppia.
English
Subject-to-video generation has witnessed substantial progress in recent
years. However, existing models still face significant challenges in faithfully
following textual instructions. This limitation, commonly known as the
copy-paste problem, arises from the widely used in-pair training paradigm. This
approach inherently entangles subject identity with background and contextual
attributes by sampling reference images from the same scene as the target
video. To address this issue, we introduce Phantom-Data, the first
general-purpose cross-pair subject-to-video consistency dataset, containing
approximately one million identity-consistent pairs across diverse categories.
Our dataset is constructed via a three-stage pipeline: (1) a general and
input-aligned subject detection module, (2) large-scale cross-context subject
retrieval from more than 53 million videos and 3 billion images, and (3)
prior-guided identity verification to ensure visual consistency under
contextual variation. Comprehensive experiments show that training with
Phantom-Data significantly improves prompt alignment and visual quality while
preserving identity consistency on par with in-pair baselines.