Rollende Sink: Een brug tussen training met beperkte horizon en open-eind testen in autoregressieve videodiffusie

Samenvatting

Onlangs hebben autoregressieve (AR) videodiffusiemodellen opmerkelijke prestaties geleverd. Vanwege hun beperkte trainingsduur ontstaat er echter een kloof tussen training en testen bij het testen over langere tijdshorizonten, wat leidt tot snelle visuele degradatie. In navolging van Self Forcing, dat de train-testkloof binnen de trainingsduur bestudeert, onderzoekt dit werk de train-testkloof voorbij de trainingsduur, namelijk de kloof tussen de beperkte horizonten tijdens de training en de open-einde horizonten tijdens het testen. Aangezien open-einde testen zich voorbij elke eindige trainingsperiode kan uitstrekken en training met lange video's rekenkundig kostbaar is, streven we naar een trainingsvrije oplossing om deze kloof te overbruggen. Om een trainingsvrije oplossing te verkennen, voeren we een systematische analyse uit van AR-cacheonderhoud. Deze inzichten leiden tot Rolling Sink. Gebaseerd op Self Forcing (getraind op slechts 5s clips), schaalt Rolling Sink de AR-videosynthese effectief op naar ultralange duur (bijvoorbeeld 5-30 minuten bij 16 FPS) tijdens het testen, met consistente onderwerpen, stabiele kleuren, samenhangende structuren en vloeiende bewegingen. Zoals aangetoond door uitgebreide experimenten, bereikt Rolling Sink superieure visuele kwaliteit en temporele consistentie over lange horizonten vergeleken met state-of-the-art baseline-methoden. Projectpagina: https://rolling-sink.github.io/

English

Recently, autoregressive (AR) video diffusion models has achieved remarkable performance. However, due to their limited training durations, a train-test gap emerges when testing at longer horizons, leading to rapid visual degradations. Following Self Forcing, which studies the train-test gap within the training duration, this work studies the train-test gap beyond the training duration, i.e., the gap between the limited horizons during training and open-ended horizons during testing. Since open-ended testing can extend beyond any finite training window, and long-video training is computationally expensive, we pursue a training-free solution to bridge this gap. To explore a training-free solution, we conduct a systematic analysis of AR cache maintenance. These insights lead to Rolling Sink. Built on Self Forcing (trained on only 5s clips), Rolling Sink effectively scales the AR video synthesis to ultra-long durations (e.g., 5-30 minutes at 16 FPS) at test time, with consistent subjects, stable colors, coherent structures, and smooth motions. As demonstrated by extensive experiments, Rolling Sink achieves superior long-horizon visual fidelity and temporal consistency compared to SOTA baselines. Project page: https://rolling-sink.github.io/

Rollende Sink: Een brug tussen training met beperkte horizon en open-eind testen in autoregressieve videodiffusie

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

Samenvatting

Support