ChatPaper.aiChatPaper

UltraViCo : Repousser les limites de l'extrapolation dans les transformeurs de diffusion vidéo

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

November 25, 2025
papers.authors: Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu
cs.AI

papers.abstract

Malgré les progrès réalisés, les transformeurs de diffusion vidéo peinent encore à généraliser au-delà de leur longueur d'entraînement, un défi que nous nommons l'extrapolation de longueur vidéo. Nous identifions deux modes de défaillance : une répétition périodique de contenu spécifique au modèle et une dégradation universelle de la qualité. Les travaux antérieurs tentent de résoudre la répétition via des encodages positionnels, négligeant la dégradation de la qualité et n'atteignant qu'une extrapolation limitée. Dans cet article, nous revisitons ce défi sous un angle plus fondamental : les cartes d'attention, qui régissent directement la manière dont le contexte influence les sorties. Nous identifions que les deux modes de défaillance proviennent d'une cause unifiée : la dispersion de l'attention, où les tokens au-delà de la fenêtre d'entraînement diluent les patterns d'attention appris. Ceci entraîne une dégradation de la qualité, et la répétition émerge comme un cas particulier lorsque cette dispersion se structure en patterns d'attention périodiques, induits par les propriétés harmoniques des encodages positionnels. En nous appuyant sur cette intuition, nous proposons UltraViCo, une méthode prête à l'emploi, sans entraînement, qui supprime l'attention pour les tokens au-delà de la fenêtre d'entraînement via un facteur d'atténuation constant. En abordant conjointement les deux modes de défaillance, nous surpassons un large ensemble de méthodes de référence sur de nombreux modèles et ratios d'extrapolation, repoussant la limite d'extrapolation de 2x à 4x. Fait remarquable, notre méthode améliore le Degré Dynamique et la Qualité d'Imagerie de 233 % et 40,5 % par rapport à la meilleure méthode précédente à une extrapolation de 4x. De plus, notre méthode se généralise de manière transparente à des tâches en aval telles que la synthèse vidéo contrôlable et l'édition.
English
Despite advances, video diffusion transformers still struggle to generalize beyond their training length, a challenge we term video length extrapolation. We identify two failure modes: model-specific periodic content repetition and a universal quality degradation. Prior works attempt to solve repetition via positional encodings, overlooking quality degradation and achieving only limited extrapolation. In this paper, we revisit this challenge from a more fundamental view: attention maps, which directly govern how context influences outputs. We identify that both failure modes arise from a unified cause: attention dispersion, where tokens beyond the training window dilute learned attention patterns. This leads to quality degradation and repetition emerges as a special case when this dispersion becomes structured into periodic attention patterns, induced by harmonic properties of positional encodings. Building on this insight, we propose UltraViCo, a training-free, plug-and-play method that suppresses attention for tokens beyond the training window via a constant decay factor. By jointly addressing both failure modes, we outperform a broad set of baselines largely across models and extrapolation ratios, pushing the extrapolation limit from 2x to 4x. Remarkably, it improves Dynamic Degree and Imaging Quality by 233% and 40.5% over the previous best method at 4x extrapolation. Furthermore, our method generalizes seamlessly to downstream tasks such as controllable video synthesis and editing.
PDF152December 1, 2025