ChatPaper.aiChatPaper

UltraViCo: Superare i Limiti dell'Estrapolazione nei Trasformatori di Diffusione Video

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

November 25, 2025
Autori: Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu
cs.AI

Abstract

Nonostante i progressi, i trasformatori per diffusione video continuano a faticare a generalizzare oltre la lunghezza di addestramento, una sfida che definiamo estrapolazione della lunghezza video. Identifichiamo due modalità di fallimento: ripetizione periodica di contenuto specifica del modello e un degrado della qualità universale. I lavori precedenti tentano di risolvere la ripetizione tramite codifiche posizionali, trascurando il degrado della qualità e raggiungendo un'estrapolazione solo limitata. In questo articolo, affrontiamo nuovamente questa sfida da una prospettiva più fondamentale: le mappe di attenzione, che governano direttamente come il contesto influenza gli output. Identifichiamo che entrambe le modalità di fallimento originano da una causa unificata: la dispersione dell'attenzione, dove i token oltre la finestra di addestramento diluiscono i pattern di attenzione appresi. Ciò porta al degrado della qualità, e la ripetizione emerge come caso speciale quando questa dispersione si struttura in pattern di attenzione periodici, indotti dalle proprietà armoniche delle codifiche posizionali. Basandoci su questa intuizione, proponiamo UltraViCo, un metodo plug-and-play, senza necessità di addestramento, che sopprime l'attenzione per i token oltre la finestra di addestramento tramite un fattore di decadimento costante. Affrontando congiuntamente entrambe le modalità di fallimento, superiamo un'ampia gamma di baseline su diversi modelli e rapporti di estrapolazione, spingendo il limite di estrapolazione da 2x a 4x. Notevolmente, il metodo migliora il Dynamic Degree e l'Imaging Quality rispettivamente del 233% e del 40.5% rispetto al miglior metodo precedente a un'estrapolazione di 4x. Inoltre, il nostro metodo si generalizza senza soluzione di continuità a task downstream come la sintesi video controllabile e l'editing.
English
Despite advances, video diffusion transformers still struggle to generalize beyond their training length, a challenge we term video length extrapolation. We identify two failure modes: model-specific periodic content repetition and a universal quality degradation. Prior works attempt to solve repetition via positional encodings, overlooking quality degradation and achieving only limited extrapolation. In this paper, we revisit this challenge from a more fundamental view: attention maps, which directly govern how context influences outputs. We identify that both failure modes arise from a unified cause: attention dispersion, where tokens beyond the training window dilute learned attention patterns. This leads to quality degradation and repetition emerges as a special case when this dispersion becomes structured into periodic attention patterns, induced by harmonic properties of positional encodings. Building on this insight, we propose UltraViCo, a training-free, plug-and-play method that suppresses attention for tokens beyond the training window via a constant decay factor. By jointly addressing both failure modes, we outperform a broad set of baselines largely across models and extrapolation ratios, pushing the extrapolation limit from 2x to 4x. Remarkably, it improves Dynamic Degree and Imaging Quality by 233% and 40.5% over the previous best method at 4x extrapolation. Furthermore, our method generalizes seamlessly to downstream tasks such as controllable video synthesis and editing.
PDF152December 1, 2025