UltraViCo: Преодоление ограничений экстраполяции в видео-диффузионных трансформаторах
UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers
November 25, 2025
Авторы: Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu
cs.AI
Аннотация
Несмотря на прогресс, видео-диффузионные трансформеры по-прежнему плохо обобщаются за пределы длины обучения — проблему, которую мы называем экстраполяцией длины видео. Мы выявили два типа сбоев: периодическое повторение контента, специфичное для модели, и универсальную деградацию качества. Предыдущие работы пытались решить проблему повторения с помощью позиционных кодировок, игнорируя деградацию качества и достигая лишь ограниченной экстраполяции. В данной статье мы пересматриваем эту задачу с более фундаментальной точки зрения: карт внимания, которые напрямую определяют влияние контекста на выходные данные. Мы устанавливаем, что оба типа сбоев имеют единую причину: дисперсию внимания, при которой токены за пределами окна обучения размывают усвоенные паттерны внимания. Это приводит к деградации качества, а повторение возникает как частный случай, когда эта дисперсия структурируется в периодические паттерны внимания, вызванные гармоническими свойствами позиционных кодировок. Основываясь на этом инсайте, мы предлагаем UltraViCo — бесплатный при обучении, plug-and-play метод, который подавляет внимание к токенам за пределами окна обучения с помощью постоянного коэффициента затухания. Одновременно решая обе проблемы, наш метод превосходит широкий набор базовых методов для различных моделей и коэффициентов экстраполяции, увеличивая предел экстраполяции с 2x до 4x. Примечательно, что на 4x экстраполяции он улучшает Dynamic Degree и Imaging Quality на 233% и 40.5% соответственно по сравнению с предыдущим лучшим методом. Более того, наш метод бесшовно обобщается на такие задачи, как управляемый синтез и редактирование видео.
English
Despite advances, video diffusion transformers still struggle to generalize beyond their training length, a challenge we term video length extrapolation. We identify two failure modes: model-specific periodic content repetition and a universal quality degradation. Prior works attempt to solve repetition via positional encodings, overlooking quality degradation and achieving only limited extrapolation. In this paper, we revisit this challenge from a more fundamental view: attention maps, which directly govern how context influences outputs. We identify that both failure modes arise from a unified cause: attention dispersion, where tokens beyond the training window dilute learned attention patterns. This leads to quality degradation and repetition emerges as a special case when this dispersion becomes structured into periodic attention patterns, induced by harmonic properties of positional encodings. Building on this insight, we propose UltraViCo, a training-free, plug-and-play method that suppresses attention for tokens beyond the training window via a constant decay factor. By jointly addressing both failure modes, we outperform a broad set of baselines largely across models and extrapolation ratios, pushing the extrapolation limit from 2x to 4x. Remarkably, it improves Dynamic Degree and Imaging Quality by 233% and 40.5% over the previous best method at 4x extrapolation. Furthermore, our method generalizes seamlessly to downstream tasks such as controllable video synthesis and editing.