ChatPaper.aiChatPaper

UltraViCo: Het doorbreken van extrapolatiegrenzen in videodiffusietransformers

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

November 25, 2025
Auteurs: Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu
cs.AI

Samenvatting

Ondanks vooruitgang worstelen videodiffusietransformers nog steeds met generalisatie voorbij hun getrainde lengte, een uitdaging die wij video-lengte-extrapolatie noemen. Wij identificeren twee faalwijzen: modelspecifieke periodieke inhoudsherhaling en een universele kwaliteitsafname. Eerdere werken proberen herhaling op te lossen middels positionele coderingen, maar negeren kwaliteitsafname en bereiken slechts beperkte extrapolatie. In dit artikel benaderen wij deze uitdaging vanuit een fundamenteler perspectief: aandachtspatronen (attention maps), die direct sturen hoe context de output beïnvloedt. Wij stellen vast dat beide faalwijzen voortkomen uit een gemeenschappelijke oorzaak: aandachtsspreiding (attention dispersion), waarbij tokens buiten het trainvenster de aangeleerde aandachtspatronen verdunnen. Dit leidt tot kwaliteitsafname, en herhaling ontstaat als een speciaal geval wanneer deze spreiding gestructureerd raakt tot periodieke aandachtspatronen, veroorzaakt door de harmonische eigenschappen van positionele coderingen. Voortbouwend op dit inzicht presenteren wij UltraViCo, een trainvrije, plug-and-play-methode die de aandacht voor tokens buiten het trainvenster onderdrukt via een constante vervalfactor. Door beide faalwijzen gezamenlijk aan te pakken, overtreffen wij een breed scala aan baseline-methoden over verschillende modellen en extrapolatieverhoudingen heen, en verleggen wij de extrapolatiegrens van 2x naar 4x. Opmerkelijk is dat het de Dynamic Degree en Imaging Quality met respectievelijk 233% en 40,5% verbetert ten opzichte van de vorige beste methode bij 4x extrapolatie. Bovendien generaliseert onze methode naadloos naar downstream-taken zoals controleerbare videosynthese en -bewerking.
English
Despite advances, video diffusion transformers still struggle to generalize beyond their training length, a challenge we term video length extrapolation. We identify two failure modes: model-specific periodic content repetition and a universal quality degradation. Prior works attempt to solve repetition via positional encodings, overlooking quality degradation and achieving only limited extrapolation. In this paper, we revisit this challenge from a more fundamental view: attention maps, which directly govern how context influences outputs. We identify that both failure modes arise from a unified cause: attention dispersion, where tokens beyond the training window dilute learned attention patterns. This leads to quality degradation and repetition emerges as a special case when this dispersion becomes structured into periodic attention patterns, induced by harmonic properties of positional encodings. Building on this insight, we propose UltraViCo, a training-free, plug-and-play method that suppresses attention for tokens beyond the training window via a constant decay factor. By jointly addressing both failure modes, we outperform a broad set of baselines largely across models and extrapolation ratios, pushing the extrapolation limit from 2x to 4x. Remarkably, it improves Dynamic Degree and Imaging Quality by 233% and 40.5% over the previous best method at 4x extrapolation. Furthermore, our method generalizes seamlessly to downstream tasks such as controllable video synthesis and editing.
PDF152December 1, 2025