Sink Rolling: Colmare il Divario tra Addestramento a Orizzonte Limitato e Test Aperti nella Diffusione Video Autoregressiva

Abstract

Recentemente, i modelli di diffusione video autoregressivi (AR) hanno ottenuto prestazioni notevoli. Tuttavia, a causa della loro durata di addestramento limitata, emerge un divario tra addestramento e test quando si effettua la valutazione su orizzonti temporali più lunghi, portando a un rapido degrado visivo. Seguendo il lavoro sul Self Forcing, che studia il divario addestramento-test all'interno della durata di addestramento, questo lavoro studia il divario addestramento-test oltre la durata dell'addestramento, ovvero il divario tra gli orizzonti limitati durante l'addestramento e gli orizzonti aperti durante il test. Poiché il test a orizzonte aperto può estendersi oltre qualsiasi finestra di addestramento finita, e l'addestramento su video lunghi è computazionalmente costoso, perseguiamo una soluzione senza ulteriore addestramento per colmare questo divario. Per esplorare una soluzione di questo tipo, conduciamo un'analisi sistematica della gestione della cache nei modelli AR. Queste intuizioni portano al Rolling Sink. Basato sul Self Forcing (addestrato su clip di soli 5 secondi), Rolling Sink scala efficacemente la sintesi video AR a durate ultra lunghe (ad esempio, 5-30 minuti a 16 FPS) durante il test, con soggetti consistenti, colori stabili, strutture coerenti e movimenti fluidi. Come dimostrato da ampi esperimenti, Rolling Sink raggiunge una fedeltà visiva e una coerenza temporale su lungo orizzonte superiori rispetto ai baseline state-of-the-art. Pagina del progetto: https://rolling-sink.github.io/

English

Recently, autoregressive (AR) video diffusion models has achieved remarkable performance. However, due to their limited training durations, a train-test gap emerges when testing at longer horizons, leading to rapid visual degradations. Following Self Forcing, which studies the train-test gap within the training duration, this work studies the train-test gap beyond the training duration, i.e., the gap between the limited horizons during training and open-ended horizons during testing. Since open-ended testing can extend beyond any finite training window, and long-video training is computationally expensive, we pursue a training-free solution to bridge this gap. To explore a training-free solution, we conduct a systematic analysis of AR cache maintenance. These insights lead to Rolling Sink. Built on Self Forcing (trained on only 5s clips), Rolling Sink effectively scales the AR video synthesis to ultra-long durations (e.g., 5-30 minutes at 16 FPS) at test time, with consistent subjects, stable colors, coherent structures, and smooth motions. As demonstrated by extensive experiments, Rolling Sink achieves superior long-horizon visual fidelity and temporal consistency compared to SOTA baselines. Project page: https://rolling-sink.github.io/

Sink Rolling: Colmare il Divario tra Addestramento a Orizzonte Limitato e Test Aperti nella Diffusione Video Autoregressiva

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

Abstract

Support