Phantom-Data: Auf dem Weg zu einem allgemeinen subjektkonsistenten Video-Generierungsdatensatz
Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset
June 23, 2025
Autoren: Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu
cs.AI
Zusammenfassung
Die Subjekt-zu-Video-Generierung hat in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch stehen bestehende Modelle weiterhin vor erheblichen Herausforderungen, wenn es darum geht, textuelle Anweisungen treu zu befolgen. Diese Einschränkung, allgemein als das Copy-Paste-Problem bekannt, resultiert aus dem weit verbreiteten In-Pair-Trainingsparadigma. Dieser Ansatz verknüpft die Identität des Subjekts inhärent mit Hintergrund- und Kontextattributen, indem Referenzbilder aus derselben Szene wie das Zielvideo entnommen werden. Um dieses Problem zu lösen, stellen wir Phantom-Data vor, den ersten allgemeinen Cross-Pair-Datensatz für Subjekt-zu-Video-Konsistenz, der etwa eine Million identitätskonsistente Paare über diverse Kategorien hinweg enthält. Unser Datensatz wird über eine dreistufige Pipeline erstellt: (1) ein allgemeines und inputausgerichtetes Subjekterkennungsmodul, (2) groß angelegte Cross-Kontext-Subjektsuche aus mehr als 53 Millionen Videos und 3 Milliarden Bildern sowie (3) prioritätsgesteuerte Identitätsverifikation, um visuelle Konsistenz bei kontextuellen Variationen sicherzustellen. Umfassende Experimente zeigen, dass das Training mit Phantom-Data die Prompt-Ausrichtung und visuelle Qualität signifikant verbessert, während die Identitätskonsistenz auf dem Niveau der In-Pair-Baselines erhalten bleibt.
English
Subject-to-video generation has witnessed substantial progress in recent
years. However, existing models still face significant challenges in faithfully
following textual instructions. This limitation, commonly known as the
copy-paste problem, arises from the widely used in-pair training paradigm. This
approach inherently entangles subject identity with background and contextual
attributes by sampling reference images from the same scene as the target
video. To address this issue, we introduce Phantom-Data, the first
general-purpose cross-pair subject-to-video consistency dataset, containing
approximately one million identity-consistent pairs across diverse categories.
Our dataset is constructed via a three-stage pipeline: (1) a general and
input-aligned subject detection module, (2) large-scale cross-context subject
retrieval from more than 53 million videos and 3 billion images, and (3)
prior-guided identity verification to ensure visual consistency under
contextual variation. Comprehensive experiments show that training with
Phantom-Data significantly improves prompt alignment and visual quality while
preserving identity consistency on par with in-pair baselines.