ChatPaper.aiChatPaper

Погружение в кадр: преодоление разрыва между обучением с ограниченным горизонтом и открытым тестированием в авторегрессионной видео-диффузии

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

February 8, 2026
Авторы: Haodong Li, Shaoteng Liu, Zhe Lin, Manmohan Chandraker
cs.AI

Аннотация

В последнее время авторегрессионные (AR) диффузионные модели для видео демонстрируют выдающиеся результаты. Однако из-за ограниченной продолжительности обучения возникает разрыв между обучением и тестированием при работе на длинных временных горизонтах, что приводит к быстрой деградации визуального качества. Основываясь на методе Self Forcing, который изучает этот разрыв в пределах длительности обучения, данная работа исследует разрыв за пределами длительности обучения, то есть разрыв между ограниченными горизонтами во время обучения и неограниченными (open-ended) горизонтами во время тестирования. Поскольку тестирование на неограниченных горизонтах может выходить за рамки любого конечного окна обучения, а обучение на длинных видео требует значительных вычислительных ресурсов, мы стремимся найти решение, не требующее дообучения. Для этого мы проводим систематический анализ механизма поддержания кеша в AR-моделях. Полученные идеи легли в основу метода Rolling Sink. Построенный на базе Self Forcing (обученного всего на 5-секундных клипах), Rolling Sink эффективно масштабирует AR-синтез видео на сверхдлинные продолжительности (например, 5-30 минут при 16 кадрах в секунду) во время теста, обеспечивая постоянство объектов, стабильность цветов, согласованность структур и плавность движений. Как показали многочисленные эксперименты, Rolling Sink превосходит современные базовые методы по визуальному качеству на длинных горизонтах и временной согласованности. Страница проекта: https://rolling-sink.github.io/
English
Recently, autoregressive (AR) video diffusion models has achieved remarkable performance. However, due to their limited training durations, a train-test gap emerges when testing at longer horizons, leading to rapid visual degradations. Following Self Forcing, which studies the train-test gap within the training duration, this work studies the train-test gap beyond the training duration, i.e., the gap between the limited horizons during training and open-ended horizons during testing. Since open-ended testing can extend beyond any finite training window, and long-video training is computationally expensive, we pursue a training-free solution to bridge this gap. To explore a training-free solution, we conduct a systematic analysis of AR cache maintenance. These insights lead to Rolling Sink. Built on Self Forcing (trained on only 5s clips), Rolling Sink effectively scales the AR video synthesis to ultra-long durations (e.g., 5-30 minutes at 16 FPS) at test time, with consistent subjects, stable colors, coherent structures, and smooth motions. As demonstrated by extensive experiments, Rolling Sink achieves superior long-horizon visual fidelity and temporal consistency compared to SOTA baselines. Project page: https://rolling-sink.github.io/
PDF72February 11, 2026