Phantom-Data : Vers un ensemble de données général pour la génération de vidéos cohérentes avec un sujet
Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset
June 23, 2025
Auteurs: Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu
cs.AI
Résumé
La génération sujet-vidéo a connu des progrès substantiels ces dernières années. Cependant, les modèles existants continuent de faire face à des défis importants pour suivre fidèlement les instructions textuelles. Cette limitation, communément appelée problème de copier-coller, découle du paradigme d'apprentissage par paires largement utilisé. Cette approche entrelace intrinsèquement l'identité du sujet avec les attributs de fond et contextuels en échantillonnant des images de référence provenant de la même scène que la vidéo cible. Pour résoudre ce problème, nous introduisons Phantom-Data, le premier ensemble de données généraliste de cohérence sujet-vidéo inter-paires, contenant environ un million de paires à identité cohérente couvrant diverses catégories. Notre ensemble de données est construit via un pipeline en trois étapes : (1) un module de détection de sujet général et aligné sur l'entrée, (2) une récupération de sujet à grande échelle dans plus de 53 millions de vidéos et 3 milliards d'images, et (3) une vérification d'identité guidée par des priorités pour assurer la cohérence visuelle malgré les variations contextuelles. Des expériences approfondies montrent que l'entraînement avec Phantom-Data améliore significativement l'alignement sur les instructions et la qualité visuelle tout en préservant la cohérence d'identité au même niveau que les approches par paires de référence.
English
Subject-to-video generation has witnessed substantial progress in recent
years. However, existing models still face significant challenges in faithfully
following textual instructions. This limitation, commonly known as the
copy-paste problem, arises from the widely used in-pair training paradigm. This
approach inherently entangles subject identity with background and contextual
attributes by sampling reference images from the same scene as the target
video. To address this issue, we introduce Phantom-Data, the first
general-purpose cross-pair subject-to-video consistency dataset, containing
approximately one million identity-consistent pairs across diverse categories.
Our dataset is constructed via a three-stage pipeline: (1) a general and
input-aligned subject detection module, (2) large-scale cross-context subject
retrieval from more than 53 million videos and 3 billion images, and (3)
prior-guided identity verification to ensure visual consistency under
contextual variation. Comprehensive experiments show that training with
Phantom-Data significantly improves prompt alignment and visual quality while
preserving identity consistency on par with in-pair baselines.