Phantom-Data: К созданию универсального набора данных для генерации видео с сохранением субъектной согласованности
Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset
June 23, 2025
Авторы: Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu
cs.AI
Аннотация
Генерация видео на основе объектов достигла значительного прогресса в последние годы. Однако существующие модели по-прежнему сталкиваются с серьезными трудностями в точном следовании текстовым инструкциям. Это ограничение, известное как проблема копирования-вставки, возникает из-за широко используемой парадигмы обучения на парных данных. Такой подход неизбежно связывает идентичность объекта с фоном и контекстными атрибутами, выбирая эталонные изображения из той же сцены, что и целевое видео. Для решения этой проблемы мы представляем Phantom-Data — первый универсальный набор данных для обеспечения согласованности объектов в видео в условиях кросс-парного обучения, содержащий около миллиона пар с сохранением идентичности в различных категориях. Наш набор данных создан с использованием трехэтапного процесса: (1) универсальный модуль обнаружения объектов, согласованный с входными данными, (2) масштабный поиск объектов в различных контекстах из более чем 53 миллионов видео и 3 миллиардов изображений, и (3) проверка идентичности с использованием априорных данных для обеспечения визуальной согласованности при изменении контекста. Комплексные эксперименты показывают, что обучение на Phantom-Data значительно улучшает соответствие текстовым инструкциям и визуальное качество, сохраняя при этом согласованность идентичности на уровне базовых подходов с парным обучением.
English
Subject-to-video generation has witnessed substantial progress in recent
years. However, existing models still face significant challenges in faithfully
following textual instructions. This limitation, commonly known as the
copy-paste problem, arises from the widely used in-pair training paradigm. This
approach inherently entangles subject identity with background and contextual
attributes by sampling reference images from the same scene as the target
video. To address this issue, we introduce Phantom-Data, the first
general-purpose cross-pair subject-to-video consistency dataset, containing
approximately one million identity-consistent pairs across diverse categories.
Our dataset is constructed via a three-stage pipeline: (1) a general and
input-aligned subject detection module, (2) large-scale cross-context subject
retrieval from more than 53 million videos and 3 billion images, and (3)
prior-guided identity verification to ensure visual consistency under
contextual variation. Comprehensive experiments show that training with
Phantom-Data significantly improves prompt alignment and visual quality while
preserving identity consistency on par with in-pair baselines.