팬텀-데이터: 일반적인 주체 일관성 비디오 생성 데이터셋을 향하여
Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset
June 23, 2025
저자: Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu
cs.AI
초록
주제-대-비디오 생성은 최근 몇 년 동안 상당한 발전을 이루었습니다. 그러나 기존 모델들은 여전히 텍스트 지시를 충실히 따르는 데 있어 상당한 어려움을 겪고 있습니다. 이러한 한계는 일반적으로 복사-붙여넣기 문제로 알려져 있으며, 널리 사용되는 동일 쌍 내 훈련 패러다임에서 비롯됩니다. 이 접근 방식은 대상 비디오와 동일한 장면에서 참조 이미지를 샘플링함으로써 주제의 정체성을 배경 및 문맥적 속성과 본질적으로 얽히게 만듭니다. 이 문제를 해결하기 위해 우리는 다양한 범주에 걸쳐 약 100만 개의 정체성 일치 쌍을 포함한 최초의 범용 교차 쌍 주제-대-비디오 일관성 데이터셋인 Phantom-Data를 소개합니다. 우리의 데이터셋은 세 단계의 파이프라인을 통해 구축되었습니다: (1) 일반적이고 입력에 정렬된 주제 탐지 모듈, (2) 5,300만 개 이상의 비디오와 30억 개의 이미지로부터 대규모 교차 문맥 주제 검색, 그리고 (3) 문맥적 변화 하에서 시각적 일관성을 보장하기 위한 사전 지도 정체성 검증. 포괄적인 실험 결과, Phantom-Data를 사용한 훈련은 동일 쌍 내 기준선과 동등한 수준의 정체성 일관성을 유지하면서 프롬프트 정렬과 시각적 품질을 크게 향상시키는 것으로 나타났습니다.
English
Subject-to-video generation has witnessed substantial progress in recent
years. However, existing models still face significant challenges in faithfully
following textual instructions. This limitation, commonly known as the
copy-paste problem, arises from the widely used in-pair training paradigm. This
approach inherently entangles subject identity with background and contextual
attributes by sampling reference images from the same scene as the target
video. To address this issue, we introduce Phantom-Data, the first
general-purpose cross-pair subject-to-video consistency dataset, containing
approximately one million identity-consistent pairs across diverse categories.
Our dataset is constructed via a three-stage pipeline: (1) a general and
input-aligned subject detection module, (2) large-scale cross-context subject
retrieval from more than 53 million videos and 3 billion images, and (3)
prior-guided identity verification to ensure visual consistency under
contextual variation. Comprehensive experiments show that training with
Phantom-Data significantly improves prompt alignment and visual quality while
preserving identity consistency on par with in-pair baselines.