Phantom-Data: К созданию универсального набора данных для генерации видео с сохранением субъектной согласованности

Аннотация

Генерация видео на основе объектов достигла значительного прогресса в последние годы. Однако существующие модели по-прежнему сталкиваются с серьезными трудностями в точном следовании текстовым инструкциям. Это ограничение, известное как проблема копирования-вставки, возникает из-за широко используемой парадигмы обучения на парных данных. Такой подход неизбежно связывает идентичность объекта с фоном и контекстными атрибутами, выбирая эталонные изображения из той же сцены, что и целевое видео. Для решения этой проблемы мы представляем Phantom-Data — первый универсальный набор данных для обеспечения согласованности объектов в видео в условиях кросс-парного обучения, содержащий около миллиона пар с сохранением идентичности в различных категориях. Наш набор данных создан с использованием трехэтапного процесса: (1) универсальный модуль обнаружения объектов, согласованный с входными данными, (2) масштабный поиск объектов в различных контекстах из более чем 53 миллионов видео и 3 миллиардов изображений, и (3) проверка идентичности с использованием априорных данных для обеспечения визуальной согласованности при изменении контекста. Комплексные эксперименты показывают, что обучение на Phantom-Data значительно улучшает соответствие текстовым инструкциям и визуальное качество, сохраняя при этом согласованность идентичности на уровне базовых подходов с парным обучением.

English

Subject-to-video generation has witnessed substantial progress in recent years. However, existing models still face significant challenges in faithfully following textual instructions. This limitation, commonly known as the copy-paste problem, arises from the widely used in-pair training paradigm. This approach inherently entangles subject identity with background and contextual attributes by sampling reference images from the same scene as the target video. To address this issue, we introduce Phantom-Data, the first general-purpose cross-pair subject-to-video consistency dataset, containing approximately one million identity-consistent pairs across diverse categories. Our dataset is constructed via a three-stage pipeline: (1) a general and input-aligned subject detection module, (2) large-scale cross-context subject retrieval from more than 53 million videos and 3 billion images, and (3) prior-guided identity verification to ensure visual consistency under contextual variation. Comprehensive experiments show that training with Phantom-Data significantly improves prompt alignment and visual quality while preserving identity consistency on par with in-pair baselines.

Phantom-Data: К созданию универсального набора данных для генерации видео с сохранением субъектной согласованности

Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset

Аннотация

Support