Phantom-Data: Naar een Algemeen Onderwerp-consistent Videogeneratie Dataset
Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset
June 23, 2025
Auteurs: Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu
cs.AI
Samenvatting
Onderwerp-naar-video-generatie heeft de afgelopen jaren aanzienlijke vooruitgang geboekt. Bestaande modellen kampen echter nog steeds met aanzienlijke uitdagingen bij het nauwgezet volgen van tekstuele instructies. Deze beperking, algemeen bekend als het copy-paste-probleem, ontstaat door het veelgebruikte in-paar-trainingsparadigma. Deze aanpak verstrengelt inherent de identiteit van het onderwerp met achtergrond- en contextuele attributen door referentiebeelden te selecteren uit dezelfde scène als de doelvideo. Om dit probleem aan te pakken, introduceren wij Phantom-Data, de eerste algemene cross-pair dataset voor onderwerp-naar-video-consistentie, die ongeveer één miljoen identiteitsconsistente paren bevat over diverse categorieën. Onze dataset is opgebouwd via een drietrapspijplijn: (1) een algemene en invoer-uitgelijnde onderwerpsdetectiemodule, (2) grootschalige cross-context onderwerpsopvraging uit meer dan 53 miljoen video's en 3 miljard afbeeldingen, en (3) prior-geleide identiteitsverificatie om visuele consistentie te waarborgen onder contextuele variatie. Uitgebreide experimenten tonen aan dat trainen met Phantom-Data de promptuitlijning en visuele kwaliteit aanzienlijk verbetert, terwijl de identiteitsconsistentie op hetzelfde niveau blijft als de in-paar-baselines.
English
Subject-to-video generation has witnessed substantial progress in recent
years. However, existing models still face significant challenges in faithfully
following textual instructions. This limitation, commonly known as the
copy-paste problem, arises from the widely used in-pair training paradigm. This
approach inherently entangles subject identity with background and contextual
attributes by sampling reference images from the same scene as the target
video. To address this issue, we introduce Phantom-Data, the first
general-purpose cross-pair subject-to-video consistency dataset, containing
approximately one million identity-consistent pairs across diverse categories.
Our dataset is constructed via a three-stage pipeline: (1) a general and
input-aligned subject detection module, (2) large-scale cross-context subject
retrieval from more than 53 million videos and 3 billion images, and (3)
prior-guided identity verification to ensure visual consistency under
contextual variation. Comprehensive experiments show that training with
Phantom-Data significantly improves prompt alignment and visual quality while
preserving identity consistency on par with in-pair baselines.