Entraînement de bout en bout pour la diffusion vidéo autorégressive via un rééchantillonnage automatique
End-to-End Training for Autoregressive Video Diffusion via Self-Resampling
December 17, 2025
papers.authors: Yuwei Guo, Ceyuan Yang, Hao He, Yang Zhao, Meng Wei, Zhenheng Yang, Weilin Huang, Dahua Lin
cs.AI
papers.abstract
Les modèles de diffusion vidéo autorégressifs offrent des perspectives prometteuses pour la simulation du monde, mais sont vulnérables au biais d'exposition découlant du décalage entraînement-test. Si des travaux récents abordent ce problème par un post-entraînement, ils reposent généralement sur un modèle enseignant bidirectionnel ou un discriminateur en ligne. Pour parvenir à une solution de bout en bout, nous introduisons le Forçage par Rééchantillonnage, un cadre sans enseignant permettant l'entraînement de modèles vidéo autorégressifs à partir de zéro et à grande échelle. Au cœur de notre approche se trouve un mécanisme d'auto-rééchantillonnage qui simule les erreurs du modèle en inférence sur les images d'historique durant l'entraînement. Conditionné par ces historiques dégradés, un masque causal parcimonieux impose la causalité temporelle tout en permettant un entraînement parallèle avec une perte de diffusion au niveau de l'image. Pour faciliter une génération efficace à long horizon, nous introduisons en outre le routage d'historique, un mécanisme non paramétrique qui récupère dynamiquement les k images d'historique les plus pertinentes pour chaque requête. Les expériences démontrent que notre approche atteint des performances comparables aux méthodes de référence par distillation, tout en présentant une cohérence temporelle supérieure sur les vidéos plus longues grâce à un entraînement à longueur native.
English
Autoregressive video diffusion models hold promise for world simulation but are vulnerable to exposure bias arising from the train-test mismatch. While recent works address this via post-training, they typically rely on a bidirectional teacher model or online discriminator. To achieve an end-to-end solution, we introduce Resampling Forcing, a teacher-free framework that enables training autoregressive video models from scratch and at scale. Central to our approach is a self-resampling scheme that simulates inference-time model errors on history frames during training. Conditioned on these degraded histories, a sparse causal mask enforces temporal causality while enabling parallel training with frame-level diffusion loss. To facilitate efficient long-horizon generation, we further introduce history routing, a parameter-free mechanism that dynamically retrieves the top-k most relevant history frames for each query. Experiments demonstrate that our approach achieves performance comparable to distillation-based baselines while exhibiting superior temporal consistency on longer videos owing to native-length training.