ChatPaper.aiChatPaper

Sumidero Rodante: Conectando el Entrenamiento de Horizonte Limitado y las Pruebas de Duración Abierta en la Difusión de Video Autoregresiva

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

February 8, 2026
Autores: Haodong Li, Shaoteng Liu, Zhe Lin, Manmohan Chandraker
cs.AI

Resumen

Recientemente, los modelos de difusión de video autorregresivos (AR) han logrado un rendimiento notable. Sin embargo, debido a sus limitadas duraciones de entrenamiento, surge una brecha entre el entrenamiento y la prueba al evaluar en horizontes más largos, lo que conduce a una rápida degradación visual. Siguiendo a Self Forcing, que estudia la brecha entrenamiento-prueba dentro de la duración del entrenamiento, este trabajo estudia dicha brecha más allá de la duración del entrenamiento, es decir, la brecha entre los horizontes limitados durante el entrenamiento y los horizontes de duración abierta durante las pruebas. Dado que las pruebas de duración abierta pueden extenderse más allá de cualquier ventana finita de entrenamiento, y el entrenamiento con videos largos es computacionalmente costoso, buscamos una solución libre de entrenamiento para cerrar esta brecha. Para explorar una solución libre de entrenamiento, realizamos un análisis sistemático del mantenimiento de la caché AR. Estas ideas conducen a Rolling Sink. Basado en Self Forcing (entrenado con clips de solo 5 segundos), Rolling Sink escala efectivamente la síntesis de video AR a duraciones ultra largas (por ejemplo, 5-30 minutos a 16 FPS) en el momento de la prueba, con sujetos consistentes, colores estables, estructuras coherentes y movimientos suaves. Como demuestran extensos experimentos, Rolling Sink logra una fidelidad visual y una coherencia temporal en horizontes largos superiores en comparación con los baselines state-of-the-art (SOTA). Página del proyecto: https://rolling-sink.github.io/
English
Recently, autoregressive (AR) video diffusion models has achieved remarkable performance. However, due to their limited training durations, a train-test gap emerges when testing at longer horizons, leading to rapid visual degradations. Following Self Forcing, which studies the train-test gap within the training duration, this work studies the train-test gap beyond the training duration, i.e., the gap between the limited horizons during training and open-ended horizons during testing. Since open-ended testing can extend beyond any finite training window, and long-video training is computationally expensive, we pursue a training-free solution to bridge this gap. To explore a training-free solution, we conduct a systematic analysis of AR cache maintenance. These insights lead to Rolling Sink. Built on Self Forcing (trained on only 5s clips), Rolling Sink effectively scales the AR video synthesis to ultra-long durations (e.g., 5-30 minutes at 16 FPS) at test time, with consistent subjects, stable colors, coherent structures, and smooth motions. As demonstrated by extensive experiments, Rolling Sink achieves superior long-horizon visual fidelity and temporal consistency compared to SOTA baselines. Project page: https://rolling-sink.github.io/
PDF72February 11, 2026