ChatPaper.aiChatPaper

Escalado de la Generación de Referencia a Video de Cero Disparos

Scaling Zero-Shot Reference-to-Video Generation

December 7, 2025
Autores: Zijian Zhou, Shikun Liu, Haozhe Liu, Haonan Qiu, Zhaochong An, Weiming Ren, Zhiheng Liu, Xiaoke Huang, Kam Woh Ng, Tian Xie, Xiao Han, Yuren Cong, Hang Li, Chuyan Zhu, Aditya Patel, Tao Xiang, Sen He
cs.AI

Resumen

La generación de referencia a vídeo (R2V) tiene como objetivo sintetizar vídeos que se alineen con un texto descriptivo (prompt) preservando al mismo tiempo la identidad del sujeto a partir de imágenes de referencia. Sin embargo, los métodos R2V actuales se ven limitados por su dependencia de tripletas explícitas de imagen de referencia-vídeo-texto, cuya construcción es extremadamente costosa y difícil de escalar. Nosotros evitamos este cuello de botella presentando Saber, un marco de trabajo escalable de cero disparos (zero-shot) que no requiere datos R2V explícitos. Entrenado exclusivamente con pares vídeo-texto, Saber emplea una estrategia de entrenamiento enmascarado (masked training) y un diseño de modelo específico basado en mecanismos de atención para aprender representaciones consistentes con la identidad y conscientes de la referencia. Además, se integran técnicas de aumento de datos con enmascaramiento (mask augmentation) para mitigar los artefactos de tipo "copiar y pegar" comunes en la generación de referencia a vídeo. Más aún, Saber demuestra capacidades de generalización notables con un número variable de referencias y logra un rendimiento superior en el benchmark OpenS2V-Eval en comparación con métodos entrenados con datos R2V.
English
Reference-to-video (R2V) generation aims to synthesize videos that align with a text prompt while preserving the subject identity from reference images. However, current R2V methods are hindered by the reliance on explicit reference image-video-text triplets, whose construction is highly expensive and difficult to scale. We bypass this bottleneck by introducing Saber, a scalable zero-shot framework that requires no explicit R2V data. Trained exclusively on video-text pairs, Saber employs a masked training strategy and a tailored attention-based model design to learn identity-consistent and reference-aware representations. Mask augmentation techniques are further integrated to mitigate copy-paste artifacts common in reference-to-video generation. Moreover, Saber demonstrates remarkable generalization capabilities across a varying number of references and achieves superior performance on the OpenS2V-Eval benchmark compared to methods trained with R2V data.
PDF274December 10, 2025