Dimensionando a Geração de Referência para Vídeo com Aprendizado Zero
Scaling Zero-Shot Reference-to-Video Generation
December 7, 2025
Autores: Zijian Zhou, Shikun Liu, Haozhe Liu, Haonan Qiu, Zhaochong An, Weiming Ren, Zhiheng Liu, Xiaoke Huang, Kam Woh Ng, Tian Xie, Xiao Han, Yuren Cong, Hang Li, Chuyan Zhu, Aditya Patel, Tao Xiang, Sen He
cs.AI
Resumo
A geração de referência-para-vídeo (R2V) visa sintetizar vídeos que se alinhem com um prompt de texto, preservando simultaneamente a identidade do sujeito a partir de imagens de referência. No entanto, os métodos atuais de R2V são limitados pela dependência de trincas explícitas de imagem-vídeo-texto de referência, cuja construção é extremamente dispendiosa e difícil de dimensionar. Contornamos este gargalo introduzindo o Saber, uma estrutura escalável de *zero-shot* que não requer dados R2V explícitos. Treinado exclusivamente em pares vídeo-texto, o Saber emprega uma estratégia de treinamento mascarado e um design de modelo personalizado baseado em atenção para aprender representações consistentes com a identidade e conscientes da referência. Técnicas de aumento de máscara são ainda integradas para mitigar artefatos de copiar-colar comuns na geração de referência-para-vídeo. Além disso, o Saber demonstra capacidades de generalização notáveis para um número variável de referências e alcança desempenho superior no benchmark OpenS2V-Eval em comparação com métodos treinados com dados R2V.
English
Reference-to-video (R2V) generation aims to synthesize videos that align with a text prompt while preserving the subject identity from reference images. However, current R2V methods are hindered by the reliance on explicit reference image-video-text triplets, whose construction is highly expensive and difficult to scale. We bypass this bottleneck by introducing Saber, a scalable zero-shot framework that requires no explicit R2V data. Trained exclusively on video-text pairs, Saber employs a masked training strategy and a tailored attention-based model design to learn identity-consistent and reference-aware representations. Mask augmentation techniques are further integrated to mitigate copy-paste artifacts common in reference-to-video generation. Moreover, Saber demonstrates remarkable generalization capabilities across a varying number of references and achieves superior performance on the OpenS2V-Eval benchmark compared to methods trained with R2V data.