Roulis Sink : Faire le lien entre l'entraînement à horizon limité et les tests ouverts dans la diffusion vidéo autorégressive
Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion
February 8, 2026
papers.authors: Haodong Li, Shaoteng Liu, Zhe Lin, Manmohan Chandraker
cs.AI
papers.abstract
Récemment, les modèles de diffusion vidéo autorégressifs (AR) ont obtenu des performances remarquables. Cependant, en raison de leurs durées d'entraînement limitées, un écart entre l'entraînement et les tests apparaît lors d'évaluations sur des horizons temporels plus longs, entraînant une dégradation visuelle rapide. Faisant suite à Self Forcing, qui étudie cet écart dans la durée d'entraînement, ce travail étudie l'écart au-delà de cette durée, c'est-à-dire l'écart entre les horizons limités pendant l'entraînement et les horizons ouverts pendant les tests. Étant donné que les tests ouverts peuvent s'étendre au-delà de toute fenêtre d'entraînement finie, et que l'entraînement sur de longues vidéos est très coûteux en calcul, nous poursuivons une solution sans entraînement supplémentaire pour combler cet écart. Pour explorer une solution sans entraînement, nous menons une analyse systématique de la maintenance du cache AR. Ces observations mènent à Rolling Sink. Basée sur Self Forcing (entraîné sur des clips de seulement 5 secondes), Rolling Sink permet de passer efficacement à l'échelle la synthèse vidéo AR vers des durées ultra-longues (par exemple, 5 à 30 minutes à 16 FPS) au moment du test, avec des sujets cohérents, des couleurs stables, des structures homogènes et des mouvements fluides. Comme le démontrent des expériences approfondies, Rolling Sink atteint une fidélité visuelle et une cohérence temporelle sur de longs horizons supérieures à celles des lignes de base de l'état de l'art. Page du projet : https://rolling-sink.github.io/
English
Recently, autoregressive (AR) video diffusion models has achieved remarkable performance. However, due to their limited training durations, a train-test gap emerges when testing at longer horizons, leading to rapid visual degradations. Following Self Forcing, which studies the train-test gap within the training duration, this work studies the train-test gap beyond the training duration, i.e., the gap between the limited horizons during training and open-ended horizons during testing. Since open-ended testing can extend beyond any finite training window, and long-video training is computationally expensive, we pursue a training-free solution to bridge this gap. To explore a training-free solution, we conduct a systematic analysis of AR cache maintenance. These insights lead to Rolling Sink. Built on Self Forcing (trained on only 5s clips), Rolling Sink effectively scales the AR video synthesis to ultra-long durations (e.g., 5-30 minutes at 16 FPS) at test time, with consistent subjects, stable colors, coherent structures, and smooth motions. As demonstrated by extensive experiments, Rolling Sink achieves superior long-horizon visual fidelity and temporal consistency compared to SOTA baselines. Project page: https://rolling-sink.github.io/