ChatPaper.aiChatPaper

UltraViCo: 비디오 디퓨전 트랜스포머의 외삽 한계 극복

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

November 25, 2025
저자: Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu
cs.AI

초록

진전이 있었음에도 불구하고, 비디오 확산 트랜스포머는 여전히 학습 길이를 벗어난 일반화에 어려움을 겪는데, 우리는 이 문제를 비디오 길이 외삽이라는 과제로 명명합니다. 우리는 두 가지 실패 모드를 확인했습니다: 모델 특이적인 주기적 콘텐츠 반복과 보편적인 화질 저하입니다. 기존 연구들은 위치 인코딩을 통해 반복 문제를 해결하려 시도했으나, 화질 저하 문제는 간과했고 제한된 외삽 성능만 달성했습니다. 본 논문에서는 출력에 영향을 미치는 컨텍스트의 작용 방식을 직접적으로 지배하는 어텐션 맵이라는 보다 근본적인 관점에서 이 문제를 재조명합니다. 우리는 두 실패 모드가 모두 통합된 원인, 즉 어텐션 분산에서 비롯된다고 파악했습니다. 어텐션 분산이란 학습 창을 벗어난 토큰들이 학습된 어텐션 패턴을 희석시키는 현상입니다. 이는 화질 저하를 초래하며, 위치 인코딩의 조화 특성에 의해 이 분산이 주기적인 어텐션 패턴으로 구조화될 때 반복 현상이 특수한 경우로 나타납니다. 이러한 통찰을 바탕으로, 우리는 학습이 필요 없고 즉시 사용 가능한 플러그인 방식인 UltraViCo를 제안합니다. 이 방법은 상수 감쇠 인자를 통해 학습 창을 벗어난 토큰들에 대한 어텐션을 억제합니다. 두 실패 모드를 함께 해결함으로써, 우리는 다양한 모델과 외삽 비율에 걸쳐 광범위한 기준선들을 크게 능가하며, 외삽 한계를 2배에서 4배로 끌어올렸습니다. 특히 4배 외삽에서 기존 최고 방법 대비 동적 정도와 이미징 품질을 각각 233%, 40.5% 향상시켰습니다. 나아가, 우리의 방법은 제어 가능한 비디오 합성 및 편집과 같은 하위 작업에 원활하게 일반화됩니다.
English
Despite advances, video diffusion transformers still struggle to generalize beyond their training length, a challenge we term video length extrapolation. We identify two failure modes: model-specific periodic content repetition and a universal quality degradation. Prior works attempt to solve repetition via positional encodings, overlooking quality degradation and achieving only limited extrapolation. In this paper, we revisit this challenge from a more fundamental view: attention maps, which directly govern how context influences outputs. We identify that both failure modes arise from a unified cause: attention dispersion, where tokens beyond the training window dilute learned attention patterns. This leads to quality degradation and repetition emerges as a special case when this dispersion becomes structured into periodic attention patterns, induced by harmonic properties of positional encodings. Building on this insight, we propose UltraViCo, a training-free, plug-and-play method that suppresses attention for tokens beyond the training window via a constant decay factor. By jointly addressing both failure modes, we outperform a broad set of baselines largely across models and extrapolation ratios, pushing the extrapolation limit from 2x to 4x. Remarkably, it improves Dynamic Degree and Imaging Quality by 233% and 40.5% over the previous best method at 4x extrapolation. Furthermore, our method generalizes seamlessly to downstream tasks such as controllable video synthesis and editing.
PDF152December 1, 2025