Rolamento Síncrono: Conectando o Treinamento de Horizonte Limitado e os Testes de Longa Duração na Difusão Autoregressiva de Vídeo

Resumo

Recentemente, os modelos de difusão de vídeo autoregressivos (AR) alcançaram desempenho notável. No entanto, devido às suas durações limitadas de treinamento, surge uma lacuna entre treino e teste ao avaliar em horizontes mais longos, levando a degradações visuais rápidas. Seguindo o princípio de Self Forcing, que estuda essa lacuna dentro da duração do treinamento, este trabalho investiga a lacuna além da duração do treinamento, ou seja, a diferença entre os horizontes limitados durante o treino e os horizontes abertos durante o teste. Como o teste de horizonte aberto pode estender-se além de qualquer janela finita de treinamento, e o treino com vídeos longos é computacionalmente custoso, buscamos uma solução livre de treinamento adicional para preencher essa lacuna. Para explorar uma solução sem treinamento, realizamos uma análise sistemática da manutenção de cache em modelos AR. Esses insights levam ao método Rolling Sink. Desenvolvido com base no Self Forcing (treinado apenas com clipes de 5s), o Rolling Sink escala efetivamente a síntese de vídeo AR para durações ultralongas (por exemplo, 5-30 minutos a 16 FPS) durante o teste, com sujeitos consistentes, cores estáveis, estruturas coerentes e movimentos suaves. Como demonstrado por extensos experimentos, o Rolling Sink alcança fidelidade visual e consistência temporal em longo horizonte superiores em comparação com as linhas de base state-of-the-art (SOTA). Página do projeto: https://rolling-sink.github.io/

English

Recently, autoregressive (AR) video diffusion models has achieved remarkable performance. However, due to their limited training durations, a train-test gap emerges when testing at longer horizons, leading to rapid visual degradations. Following Self Forcing, which studies the train-test gap within the training duration, this work studies the train-test gap beyond the training duration, i.e., the gap between the limited horizons during training and open-ended horizons during testing. Since open-ended testing can extend beyond any finite training window, and long-video training is computationally expensive, we pursue a training-free solution to bridge this gap. To explore a training-free solution, we conduct a systematic analysis of AR cache maintenance. These insights lead to Rolling Sink. Built on Self Forcing (trained on only 5s clips), Rolling Sink effectively scales the AR video synthesis to ultra-long durations (e.g., 5-30 minutes at 16 FPS) at test time, with consistent subjects, stable colors, coherent structures, and smooth motions. As demonstrated by extensive experiments, Rolling Sink achieves superior long-horizon visual fidelity and temporal consistency compared to SOTA baselines. Project page: https://rolling-sink.github.io/

Rolamento Síncrono: Conectando o Treinamento de Horizonte Limitado e os Testes de Longa Duração na Difusão Autoregressiva de Vídeo

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

Resumo

Support