Dimensionando a Geração de Referência para Vídeo com Aprendizado Zero

Resumo

A geração de referência-para-vídeo (R2V) visa sintetizar vídeos que se alinhem com um prompt de texto, preservando simultaneamente a identidade do sujeito a partir de imagens de referência. No entanto, os métodos atuais de R2V são limitados pela dependência de trincas explícitas de imagem-vídeo-texto de referência, cuja construção é extremamente dispendiosa e difícil de dimensionar. Contornamos este gargalo introduzindo o Saber, uma estrutura escalável de *zero-shot* que não requer dados R2V explícitos. Treinado exclusivamente em pares vídeo-texto, o Saber emprega uma estratégia de treinamento mascarado e um design de modelo personalizado baseado em atenção para aprender representações consistentes com a identidade e conscientes da referência. Técnicas de aumento de máscara são ainda integradas para mitigar artefatos de copiar-colar comuns na geração de referência-para-vídeo. Além disso, o Saber demonstra capacidades de generalização notáveis para um número variável de referências e alcança desempenho superior no benchmark OpenS2V-Eval em comparação com métodos treinados com dados R2V.

English

Reference-to-video (R2V) generation aims to synthesize videos that align with a text prompt while preserving the subject identity from reference images. However, current R2V methods are hindered by the reliance on explicit reference image-video-text triplets, whose construction is highly expensive and difficult to scale. We bypass this bottleneck by introducing Saber, a scalable zero-shot framework that requires no explicit R2V data. Trained exclusively on video-text pairs, Saber employs a masked training strategy and a tailored attention-based model design to learn identity-consistent and reference-aware representations. Mask augmentation techniques are further integrated to mitigate copy-paste artifacts common in reference-to-video generation. Moreover, Saber demonstrates remarkable generalization capabilities across a varying number of references and achieves superior performance on the OpenS2V-Eval benchmark compared to methods trained with R2V data.

Dimensionando a Geração de Referência para Vídeo com Aprendizado Zero

Scaling Zero-Shot Reference-to-Video Generation

Resumo

Support