Phantom-Data: Verso un Dataset Generale per la Generazione di Video con Soggetto Coerente

Abstract

La generazione da soggetto a video ha registrato progressi significativi negli ultimi anni. Tuttavia, i modelli esistenti continuano a confrontarsi con sfide importanti nel seguire fedelmente le istruzioni testuali. Questa limitazione, comunemente nota come problema del copia-incolla, deriva dal paradigma di addestramento in coppia ampiamente utilizzato. Questo approccio intrinsecamente intreccia l'identità del soggetto con attributi contestuali e di sfondo campionando immagini di riferimento dalla stessa scena del video target. Per affrontare questo problema, introduciamo Phantom-Data, il primo dataset generale di coerenza da soggetto a video in coppie incrociate, contenente circa un milione di coppie con identità coerenti in diverse categorie. Il nostro dataset è costruito attraverso una pipeline in tre fasi: (1) un modulo di rilevamento del soggetto generale e allineato all'input, (2) un recupero su larga scala di soggetti in contesti incrociati da oltre 53 milioni di video e 3 miliardi di immagini, e (3) una verifica dell'identità guidata da prior per garantire la coerenza visiva sotto variazione contestuale. Esperimenti completi dimostrano che l'addestramento con Phantom-Data migliora significativamente l'allineamento alle istruzioni e la qualità visiva, mantenendo al contempo la coerenza dell'identità pari ai baseline in coppia.

English

Subject-to-video generation has witnessed substantial progress in recent years. However, existing models still face significant challenges in faithfully following textual instructions. This limitation, commonly known as the copy-paste problem, arises from the widely used in-pair training paradigm. This approach inherently entangles subject identity with background and contextual attributes by sampling reference images from the same scene as the target video. To address this issue, we introduce Phantom-Data, the first general-purpose cross-pair subject-to-video consistency dataset, containing approximately one million identity-consistent pairs across diverse categories. Our dataset is constructed via a three-stage pipeline: (1) a general and input-aligned subject detection module, (2) large-scale cross-context subject retrieval from more than 53 million videos and 3 billion images, and (3) prior-guided identity verification to ensure visual consistency under contextual variation. Comprehensive experiments show that training with Phantom-Data significantly improves prompt alignment and visual quality while preserving identity consistency on par with in-pair baselines.

Phantom-Data: Verso un Dataset Generale per la Generazione di Video con Soggetto Coerente

Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset

Abstract

Support