ChatPaper.aiChatPaper

UltraViCo: Superando los Límites de la Extrapolación en Transformadores de Difusión de Video

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

November 25, 2025
Autores: Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu
cs.AI

Resumen

A pesar de los avances, los transformadores de difusión de video aún tienen dificultades para generalizar más allá de su longitud de entrenamiento, un desafío que denominamos extrapolación de longitud de video. Identificamos dos modos de fallo: la repetición periódica de contenido específica del modelo y una degradación de calidad universal. Trabajos previos intentaron resolver la repetición mediante codificaciones posicionales, pasando por alto la degradación de calidad y logrando solo una extrapolación limitada. En este artículo, revisitamos este desafío desde una perspectiva más fundamental: los mapas de atención, que gobiernan directamente cómo el contexto influye en las salidas. Identificamos que ambos modos de fallo surgen de una causa unificada: la dispersión de la atención, donde los tokens más allá de la ventana de entrenamiento diluyen los patrones de atención aprendidos. Esto conduce a una degradación de la calidad, y la repetición emerge como un caso especial cuando esta dispersión se estructura en patrones de atención periódicos, inducidos por las propiedades armónicas de las codificaciones posicionales. Basándonos en esta idea, proponemos UltraViCo, un método plug-and-play, libre de entrenamiento, que suprime la atención para los tokens más allá de la ventana de entrenamiento mediante un factor de decaimiento constante. Al abordar conjuntamente ambos modos de fallo, superamos a un amplio conjunto de líneas base en diversos modelos y ratios de extrapolación, elevando el límite de extrapolación de 2x a 4x. Notablemente, mejora el Grado Dinámico y la Calidad de Imagen en un 233% y un 40.5% respectivamente, respecto al mejor método anterior en una extrapolación de 4x. Además, nuestro método se generaliza sin problemas a tareas derivadas como la síntesis y edición de video controlable.
English
Despite advances, video diffusion transformers still struggle to generalize beyond their training length, a challenge we term video length extrapolation. We identify two failure modes: model-specific periodic content repetition and a universal quality degradation. Prior works attempt to solve repetition via positional encodings, overlooking quality degradation and achieving only limited extrapolation. In this paper, we revisit this challenge from a more fundamental view: attention maps, which directly govern how context influences outputs. We identify that both failure modes arise from a unified cause: attention dispersion, where tokens beyond the training window dilute learned attention patterns. This leads to quality degradation and repetition emerges as a special case when this dispersion becomes structured into periodic attention patterns, induced by harmonic properties of positional encodings. Building on this insight, we propose UltraViCo, a training-free, plug-and-play method that suppresses attention for tokens beyond the training window via a constant decay factor. By jointly addressing both failure modes, we outperform a broad set of baselines largely across models and extrapolation ratios, pushing the extrapolation limit from 2x to 4x. Remarkably, it improves Dynamic Degree and Imaging Quality by 233% and 40.5% over the previous best method at 4x extrapolation. Furthermore, our method generalizes seamlessly to downstream tasks such as controllable video synthesis and editing.
PDF152December 1, 2025