Rolling Sink: Überbrückung von Training mit begrenztem Horizont und offenem Testen in autoregressiver Video-Diffusion
Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion
February 8, 2026
papers.authors: Haodong Li, Shaoteng Liu, Zhe Lin, Manmohan Chandraker
cs.AI
papers.abstract
Kürzlich haben autoregressive (AR) Video-Diffusionsmodelle bemerkenswerte Leistungen erzielt. Aufgrund ihrer begrenzten Trainingsdauern entsteht jedoch eine Trainings-Test-Lücke bei Tests über längere Zeiträume, was zu schnellen visuellen Verschlechterungen führt. In Anlehnung an Self Forcing, das die Trainings-Test-Lücke innerhalb der Trainingsdauer untersucht, analysiert diese Arbeit die Trainings-Test-Lücke über die Trainingsdauer hinaus, d.h. die Lücke zwischen den begrenzten Zeiträumen während des Trainings und den offenen Zeiträumen während des Tests. Da offene Tests über jedes endliche Trainingsfenster hinausgehen können und das Training mit langen Videos rechenintensiv ist, verfolgen wir eine trainingsfreie Lösung, um diese Lücke zu schließen. Um eine trainingsfreie Lösung zu erforschen, führen wir eine systematische Analyse der AR-Cache-Verwaltung durch. Diese Erkenntnisse führen zu Rolling Sink. Aufbauend auf Self Forcing (trainiert mit nur 5-Sekunden-Clips) skaliert Rolling Sink die AR-Videosynthese zur Testzeit effektiv auf ultra-lange Dauer (z.B. 5-30 Minuten bei 16 FPS), mit konsistenten Motiven, stabilen Farben, kohärenten Strukturen und flüssigen Bewegungen. Wie umfangreiche Experimente zeigen, erreicht Rolling Sink im Vergleich zu SOTA-Baselines eine überlegene visuelle Qualität und zeitliche Konsistenz über lange Zeiträume. Projektseite: https://rolling-sink.github.io/
English
Recently, autoregressive (AR) video diffusion models has achieved remarkable performance. However, due to their limited training durations, a train-test gap emerges when testing at longer horizons, leading to rapid visual degradations. Following Self Forcing, which studies the train-test gap within the training duration, this work studies the train-test gap beyond the training duration, i.e., the gap between the limited horizons during training and open-ended horizons during testing. Since open-ended testing can extend beyond any finite training window, and long-video training is computationally expensive, we pursue a training-free solution to bridge this gap. To explore a training-free solution, we conduct a systematic analysis of AR cache maintenance. These insights lead to Rolling Sink. Built on Self Forcing (trained on only 5s clips), Rolling Sink effectively scales the AR video synthesis to ultra-long durations (e.g., 5-30 minutes at 16 FPS) at test time, with consistent subjects, stable colors, coherent structures, and smooth motions. As demonstrated by extensive experiments, Rolling Sink achieves superior long-horizon visual fidelity and temporal consistency compared to SOTA baselines. Project page: https://rolling-sink.github.io/