ChatPaper.aiChatPaper

UltraViCo: Durchbrechen der Extrapolationsgrenzen in Video-Diffusion-Transformatoren

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

November 25, 2025
papers.authors: Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu
cs.AI

papers.abstract

Trotz Fortschritten haben Video-Diffusion-Transformer nach wie vor Schwierigkeiten, über ihre Trainingslänge hinaus zu generalisieren – eine Herausforderung, die wir als Video-Längenextrapolation bezeichnen. Wir identifizieren zwei Fehlermodi: modellspezifische periodische Inhaltswiederholung und einen universellen Qualitätsverfall. Bisherige Arbeiten versuchten, Wiederholungen über Positionskodierungen zu lösen, übersahen dabei den Qualitätsverfall und erreichten nur begrenzte Extrapolation. In dieser Arbeit betrachten wir diese Herausforderung aus einer grundlegenderen Perspektive: Aufmerksamkeitskarten, die direkt steuern, wie Kontext die Ausgaben beeinflusst. Wir zeigen, dass beide Fehlermodi eine gemeinsame Ursache haben: Aufmerksamkeitsdispersion, bei der Token jenseits des Trainingsfensters gelernte Aufmerksamkeitsmuster verwässern. Dies führt zu Qualitätsverfall, und Wiederholung entsteht als Sonderfall, wenn diese Dispersion sich zu periodischen Aufmerksamkeitsmustern strukturiert – induziert durch harmonische Eigenschaften von Positionskodierungen. Auf dieser Erkenntnis aufbauend schlagen wir UltraViCo vor, eine trainierungsfreie Plug-and-Play-Methode, die die Aufmerksamkeit für Token außerhalb des Trainingsfensters durch einen konstanten Dämpfungsfaktor unterdrückt. Durch die gemeinsame Behandlung beider Fehlermodi übertreffen wir eine breite Palette von Baseline-Methoden übergreifend über Modelle und Extrapolationsverhältnisse hinweg und verschieben die Extrapolationsgrenze von 2x auf 4x. Bemerkenswerterweise verbessert es Dynamic Degree und Imaging Quality um 233 % bzw. 40,5 % gegenüber der bisher besten Methode bei 4-facher Extrapolation. Darüber hinaus verallgemeinert sich unsere Methode nahtlos auf nachgelagerte Aufgaben wie kontrollierbare Videosynthese und -bearbeitung.
English
Despite advances, video diffusion transformers still struggle to generalize beyond their training length, a challenge we term video length extrapolation. We identify two failure modes: model-specific periodic content repetition and a universal quality degradation. Prior works attempt to solve repetition via positional encodings, overlooking quality degradation and achieving only limited extrapolation. In this paper, we revisit this challenge from a more fundamental view: attention maps, which directly govern how context influences outputs. We identify that both failure modes arise from a unified cause: attention dispersion, where tokens beyond the training window dilute learned attention patterns. This leads to quality degradation and repetition emerges as a special case when this dispersion becomes structured into periodic attention patterns, induced by harmonic properties of positional encodings. Building on this insight, we propose UltraViCo, a training-free, plug-and-play method that suppresses attention for tokens beyond the training window via a constant decay factor. By jointly addressing both failure modes, we outperform a broad set of baselines largely across models and extrapolation ratios, pushing the extrapolation limit from 2x to 4x. Remarkably, it improves Dynamic Degree and Imaging Quality by 233% and 40.5% over the previous best method at 4x extrapolation. Furthermore, our method generalizes seamlessly to downstream tasks such as controllable video synthesis and editing.
PDF152December 1, 2025