UltraViCo: Superando os Limites da Extrapolação em Transformadores de Difusão de Vídeo

Resumo

Apesar dos avanços, os transformadores de difusão de vídeo ainda lutam para generalizar além do seu comprimento de treinamento, um desafio que denominamos extrapolação de comprimento de vídeo. Identificamos dois modos de falha: repetição periódica de conteúdo específica do modelo e uma degradação de qualidade universal. Trabalhos anteriores tentaram resolver a repetição via codificações posicionais, negligenciando a degradação de qualidade e alcançando apenas extrapolação limitada. Neste artigo, revisitamos este desafio a partir de uma visão mais fundamental: os mapas de atenção, que governam diretamente como o contexto influencia as saídas. Identificamos que ambos os modos de falha surgem de uma causa unificada: a dispersão da atenção, onde *tokens* além da janela de treinamento diluem os padrões de atenção aprendidos. Isto leva à degradação da qualidade, e a repetição emerge como um caso especial quando esta dispersão se estrutura em padrões de atenção periódicos, induzida pelas propriedades harmônicas das codificações posicionais. Com base nesta perceção, propomos o UltraViCo, um método *plug-and-play* e livre de treino que suprime a atenção para *tokens* além da janela de treinamento através de um fator de decaimento constante. Ao abordar conjuntamente ambos os modos de falha, superamos um amplo conjunto de linhas de base em vários modelos e rácios de extrapolação, empurrando o limite de extrapolação de 2x para 4x. Notavelmente, o método melhora o *Dynamic Degree* e a *Imaging Quality* em 233% e 40,5%, respetivamente, em relação ao melhor método anterior na extrapolação de 4x. Adicionalmente, o nosso método generaliza-se perfeitamente para tarefas *downstream*, como síntese e edição de vídeo controlável.

English

Despite advances, video diffusion transformers still struggle to generalize beyond their training length, a challenge we term video length extrapolation. We identify two failure modes: model-specific periodic content repetition and a universal quality degradation. Prior works attempt to solve repetition via positional encodings, overlooking quality degradation and achieving only limited extrapolation. In this paper, we revisit this challenge from a more fundamental view: attention maps, which directly govern how context influences outputs. We identify that both failure modes arise from a unified cause: attention dispersion, where tokens beyond the training window dilute learned attention patterns. This leads to quality degradation and repetition emerges as a special case when this dispersion becomes structured into periodic attention patterns, induced by harmonic properties of positional encodings. Building on this insight, we propose UltraViCo, a training-free, plug-and-play method that suppresses attention for tokens beyond the training window via a constant decay factor. By jointly addressing both failure modes, we outperform a broad set of baselines largely across models and extrapolation ratios, pushing the extrapolation limit from 2x to 4x. Remarkably, it improves Dynamic Degree and Imaging Quality by 233% and 40.5% over the previous best method at 4x extrapolation. Furthermore, our method generalizes seamlessly to downstream tasks such as controllable video synthesis and editing.

UltraViCo: Superando os Limites da Extrapolação em Transformadores de Difusão de Vídeo

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

Resumo

Support