ChatPaper.aiChatPaper

Entrenamiento Extremo a Extremo para Difusión de Video Autoregresiva mediante Remuestreo Propio

End-to-End Training for Autoregressive Video Diffusion via Self-Resampling

December 17, 2025
Autores: Yuwei Guo, Ceyuan Yang, Hao He, Yang Zhao, Meng Wei, Zhenheng Yang, Weilin Huang, Dahua Lin
cs.AI

Resumen

Los modelos de difusión de video autorregresivos son prometedores para la simulación de mundos, pero son vulnerables al sesgo de exposición que surge del desajuste entre entrenamiento y prueba. Si bien trabajos recientes abordan esto mediante post-entrenamiento, generalmente dependen de un modelo maestro bidireccional o de un discriminador en línea. Para lograr una solución integral, introducimos *Resampling Forcing*, un marco libre de maestro que permite entrenar modelos de video autorregresivos desde cero y a gran escala. Es central en nuestro enfoque un esquema de auto-remuestreo que simula los errores del modelo en tiempo de inferencia sobre los fotogramas históricos durante el entrenamiento. Condicionada por estas historias degradadas, una máscara causal dispersa aplica la causalidad temporal mientras permite el entrenamiento paralelo con una pérdida de difusión a nivel de fotograma. Para facilitar una generación eficiente de horizontes largos, introducimos además el *history routing*, un mecanismo sin parámetros que recupera dinámicamente los k fotogramas históricos más relevantes para cada consulta. Los experimentos demuestran que nuestro enfoque logra un rendimiento comparable a las líneas base basadas en destilación, mientras exhibe una consistencia temporal superior en videos más largos gracias al entrenamiento con duración nativa.
English
Autoregressive video diffusion models hold promise for world simulation but are vulnerable to exposure bias arising from the train-test mismatch. While recent works address this via post-training, they typically rely on a bidirectional teacher model or online discriminator. To achieve an end-to-end solution, we introduce Resampling Forcing, a teacher-free framework that enables training autoregressive video models from scratch and at scale. Central to our approach is a self-resampling scheme that simulates inference-time model errors on history frames during training. Conditioned on these degraded histories, a sparse causal mask enforces temporal causality while enabling parallel training with frame-level diffusion loss. To facilitate efficient long-horizon generation, we further introduce history routing, a parameter-free mechanism that dynamically retrieves the top-k most relevant history frames for each query. Experiments demonstrate that our approach achieves performance comparable to distillation-based baselines while exhibiting superior temporal consistency on longer videos owing to native-length training.
PDF95December 19, 2025