ChatPaper.aiChatPaper

Phantom-Data: Hacia un Conjunto de Datos General para la Generación de Vídeos Consistentes con el Sujeto

Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset

June 23, 2025
Autores: Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu
cs.AI

Resumen

La generación de sujeto a video ha experimentado avances significativos en los últimos años. Sin embargo, los modelos existentes aún enfrentan desafíos importantes para seguir fielmente las instrucciones textuales. Esta limitación, comúnmente conocida como el problema de copiar y pegar, surge del paradigma de entrenamiento en pares ampliamente utilizado. Este enfoque inherentemente entrelaza la identidad del sujeto con los atributos de fondo y contextuales al muestrear imágenes de referencia de la misma escena que el video objetivo. Para abordar este problema, presentamos Phantom-Data, el primer conjunto de datos de consistencia de sujeto a video de propósito general entre pares cruzados, que contiene aproximadamente un millón de pares con identidad consistente en diversas categorías. Nuestro conjunto de datos se construye mediante una canalización de tres etapas: (1) un módulo de detección de sujetos general y alineado con la entrada, (2) recuperación de sujetos a gran escala en contextos cruzados a partir de más de 53 millones de videos y 3 mil millones de imágenes, y (3) verificación de identidad guiada por prioridades para garantizar la consistencia visual bajo variación contextual. Experimentos exhaustivos muestran que el entrenamiento con Phantom-Data mejora significativamente la alineación con las indicaciones y la calidad visual, al mismo tiempo que preserva la consistencia de la identidad a la par con las líneas base en pares.
English
Subject-to-video generation has witnessed substantial progress in recent years. However, existing models still face significant challenges in faithfully following textual instructions. This limitation, commonly known as the copy-paste problem, arises from the widely used in-pair training paradigm. This approach inherently entangles subject identity with background and contextual attributes by sampling reference images from the same scene as the target video. To address this issue, we introduce Phantom-Data, the first general-purpose cross-pair subject-to-video consistency dataset, containing approximately one million identity-consistent pairs across diverse categories. Our dataset is constructed via a three-stage pipeline: (1) a general and input-aligned subject detection module, (2) large-scale cross-context subject retrieval from more than 53 million videos and 3 billion images, and (3) prior-guided identity verification to ensure visual consistency under contextual variation. Comprehensive experiments show that training with Phantom-Data significantly improves prompt alignment and visual quality while preserving identity consistency on par with in-pair baselines.
PDF252June 24, 2025