ChatPaper.aiChatPaper

ローリングシンク:自己回帰的ビデオ拡散における限定視野のトレーニングと無限のテストを架橋する手法

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

February 8, 2026
著者: Haodong Li, Shaoteng Liu, Zhe Lin, Manmohan Chandraker
cs.AI

要旨

近年、自己回帰型(AR)ビデオ拡散モデルは顕著な性能を達成している。しかし、その限られた学習期間により、長時間のテスト時には学習-テスト間の乖離が生じ、急速な画質劣化を引き起こす。本研究は、学習期間内における学習-テスト乖離を研究したSelf Forcingに続き、学習期間を超えた部分、すなわち学習時の限定的な時間範囲とテスト時のオープンエンドな時間範囲との間の乖離に着目する。オープンエンドなテストは任意の有限な学習ウィンドウを超えて拡張可能であり、長尺ビデオの学習は計算コストが高いため、我々はこの乖離を埋める学習不要なソリューションを追求する。学習不要なソリューションを探るため、ARキャッシュ維持に関する体系的分析を行い、その知見に基づきRolling Sinkを提案する。Self Forcing(5秒クリップのみで学習)上に構築されたRolling Sinkは、テスト時にARビデオ合成を超長時間(例:16 FPSで5-30分)へ効果的に拡張し、一貫した被写体、安定した色彩、首尾一貫した構造、滑らかな動きを実現する。大規模な実験により示されるように、Rolling SinkはSOTAベースラインと比較して、優れた長時間視覚的忠実度と時間的一貫性を達成する。プロジェクトページ: https://rolling-sink.github.io/
English
Recently, autoregressive (AR) video diffusion models has achieved remarkable performance. However, due to their limited training durations, a train-test gap emerges when testing at longer horizons, leading to rapid visual degradations. Following Self Forcing, which studies the train-test gap within the training duration, this work studies the train-test gap beyond the training duration, i.e., the gap between the limited horizons during training and open-ended horizons during testing. Since open-ended testing can extend beyond any finite training window, and long-video training is computationally expensive, we pursue a training-free solution to bridge this gap. To explore a training-free solution, we conduct a systematic analysis of AR cache maintenance. These insights lead to Rolling Sink. Built on Self Forcing (trained on only 5s clips), Rolling Sink effectively scales the AR video synthesis to ultra-long durations (e.g., 5-30 minutes at 16 FPS) at test time, with consistent subjects, stable colors, coherent structures, and smooth motions. As demonstrated by extensive experiments, Rolling Sink achieves superior long-horizon visual fidelity and temporal consistency compared to SOTA baselines. Project page: https://rolling-sink.github.io/
PDF72February 11, 2026