ChatPaper.aiChatPaper

UltraViCo: ビデオ拡散トランスフォーマーにおける外挿限界の打破

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

November 25, 2025
著者: Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu
cs.AI

要旨

進展があるにもかかわらず、ビデオ拡散トランスフォーマーは依然として学習長を超えた汎化に課題を抱えており、我々はこの課題を「ビデオ長外挿」と呼ぶ。我々は2つの失敗モードを特定した:モデル固有の周期的コンテンツ反復と、普遍的な品質劣化である。従来研究は位置エンコーディングによる反復の解決を試みてきたが、品質劣化を見過ごし、限定的な外挿しか達成できていなかった。本論文では、この課題をより根本的な視点、すなわち出力に影響を与えるコンテキストの関係を直接規定するアテンションマップから再検討する。両失敗モードは統一された原因、すなわち「アテンション分散」から生じることを明らかにした。これは、学習ウィンドウを超えたトークンが学習済みのアテンションパターンを希釈化する現象である。これが品質劣化を引き起こし、この分散が位置エンコーディングの調和特性によって誘発される周期的なアテンションパターンとして構造化される特殊な場合に反復が生じる。この知見に基づき、我々は訓練不要でプラグアンドプレイ可能な手法「UltraViCo」を提案する。これは定数減衰因子により学習ウィンドウを超えたトークンへのアテンションを抑制する。両失敗モードを同時に解決することで、幅広いモデルと外挿比率において多くのベースライン手法を凌駕し、外挿限界を2倍から4倍に押し上げた。特筆すべきは、4倍外挿において、従来の最良手法と比較してDynamic DegreeとImaging Qualityをそれぞれ233%、40.5%向上させた点である。さらに本手法は、制御可能なビデオ合成や編集などの下流タスクにもシームレスに汎化する。
English
Despite advances, video diffusion transformers still struggle to generalize beyond their training length, a challenge we term video length extrapolation. We identify two failure modes: model-specific periodic content repetition and a universal quality degradation. Prior works attempt to solve repetition via positional encodings, overlooking quality degradation and achieving only limited extrapolation. In this paper, we revisit this challenge from a more fundamental view: attention maps, which directly govern how context influences outputs. We identify that both failure modes arise from a unified cause: attention dispersion, where tokens beyond the training window dilute learned attention patterns. This leads to quality degradation and repetition emerges as a special case when this dispersion becomes structured into periodic attention patterns, induced by harmonic properties of positional encodings. Building on this insight, we propose UltraViCo, a training-free, plug-and-play method that suppresses attention for tokens beyond the training window via a constant decay factor. By jointly addressing both failure modes, we outperform a broad set of baselines largely across models and extrapolation ratios, pushing the extrapolation limit from 2x to 4x. Remarkably, it improves Dynamic Degree and Imaging Quality by 233% and 40.5% over the previous best method at 4x extrapolation. Furthermore, our method generalizes seamlessly to downstream tasks such as controllable video synthesis and editing.
PDF152December 1, 2025