Phantom-Data: Naar een Algemeen Onderwerp-consistent Videogeneratie Dataset

Samenvatting

Onderwerp-naar-video-generatie heeft de afgelopen jaren aanzienlijke vooruitgang geboekt. Bestaande modellen kampen echter nog steeds met aanzienlijke uitdagingen bij het nauwgezet volgen van tekstuele instructies. Deze beperking, algemeen bekend als het copy-paste-probleem, ontstaat door het veelgebruikte in-paar-trainingsparadigma. Deze aanpak verstrengelt inherent de identiteit van het onderwerp met achtergrond- en contextuele attributen door referentiebeelden te selecteren uit dezelfde scène als de doelvideo. Om dit probleem aan te pakken, introduceren wij Phantom-Data, de eerste algemene cross-pair dataset voor onderwerp-naar-video-consistentie, die ongeveer één miljoen identiteitsconsistente paren bevat over diverse categorieën. Onze dataset is opgebouwd via een drietrapspijplijn: (1) een algemene en invoer-uitgelijnde onderwerpsdetectiemodule, (2) grootschalige cross-context onderwerpsopvraging uit meer dan 53 miljoen video's en 3 miljard afbeeldingen, en (3) prior-geleide identiteitsverificatie om visuele consistentie te waarborgen onder contextuele variatie. Uitgebreide experimenten tonen aan dat trainen met Phantom-Data de promptuitlijning en visuele kwaliteit aanzienlijk verbetert, terwijl de identiteitsconsistentie op hetzelfde niveau blijft als de in-paar-baselines.

English

Subject-to-video generation has witnessed substantial progress in recent years. However, existing models still face significant challenges in faithfully following textual instructions. This limitation, commonly known as the copy-paste problem, arises from the widely used in-pair training paradigm. This approach inherently entangles subject identity with background and contextual attributes by sampling reference images from the same scene as the target video. To address this issue, we introduce Phantom-Data, the first general-purpose cross-pair subject-to-video consistency dataset, containing approximately one million identity-consistent pairs across diverse categories. Our dataset is constructed via a three-stage pipeline: (1) a general and input-aligned subject detection module, (2) large-scale cross-context subject retrieval from more than 53 million videos and 3 billion images, and (3) prior-guided identity verification to ensure visual consistency under contextual variation. Comprehensive experiments show that training with Phantom-Data significantly improves prompt alignment and visual quality while preserving identity consistency on par with in-pair baselines.

Phantom-Data: Naar een Algemeen Onderwerp-consistent Videogeneratie Dataset

Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset

Samenvatting

Support