End-to-End-Training für autoregressive Video-Diffusion durch Selbst-Neuabtastung
End-to-End Training for Autoregressive Video Diffusion via Self-Resampling
December 17, 2025
papers.authors: Yuwei Guo, Ceyuan Yang, Hao He, Yang Zhao, Meng Wei, Zhenheng Yang, Weilin Huang, Dahua Lin
cs.AI
papers.abstract
Autoregressive Videodiffusionsmodelle versprechen viel für die Weltsimulation, sind jedoch anfällig für Exposure Bias, der aus der Diskrepanz zwischen Trainings- und Testphase resultiert. Während neuere Arbeiten dies durch Nachbearbeitung adressieren, stützen sie sich typischerweise auf ein bidirektionales Lehrer-Modell oder einen Online-Diskriminator. Um eine End-to-End-Lösung zu erreichen, führen wir Resampling Forcing ein, ein lehrerfreies Framework, das das Training autoregressiver Videomodelle von Grund auf und in großem Maßstab ermöglicht. Kern unseres Ansatzes ist ein Self-Resampling-Schema, das Modellfehler, wie sie zur Inferenzzeit auftreten, während des Trainings auf historischen Bildern simuliert. Bedingt durch diese beeinträchtigten Verläufe, erzwingt eine sparse kausale Maske die zeitliche Kausalität und ermöglicht gleichzeitig paralleles Training mit Frame-level Diffusionsverlust. Um eine effiziente Langzeitgenerierung zu ermöglichen, führen wir weiterhin History Routing ein, einen parameterfreien Mechanismus, der für jede Abfrage dynamisch die k relevanten historischen Bilder abruft. Experimente zeigen, dass unser Ansatz eine mit distillationsbasierten Baseline-Modellen vergleichbare Leistung erzielt und aufgrund des nativen Langzeittrainings eine überlegene zeitliche Konsistenz bei längeren Videos aufweist.
English
Autoregressive video diffusion models hold promise for world simulation but are vulnerable to exposure bias arising from the train-test mismatch. While recent works address this via post-training, they typically rely on a bidirectional teacher model or online discriminator. To achieve an end-to-end solution, we introduce Resampling Forcing, a teacher-free framework that enables training autoregressive video models from scratch and at scale. Central to our approach is a self-resampling scheme that simulates inference-time model errors on history frames during training. Conditioned on these degraded histories, a sparse causal mask enforces temporal causality while enabling parallel training with frame-level diffusion loss. To facilitate efficient long-horizon generation, we further introduce history routing, a parameter-free mechanism that dynamically retrieves the top-k most relevant history frames for each query. Experiments demonstrate that our approach achieves performance comparable to distillation-based baselines while exhibiting superior temporal consistency on longer videos owing to native-length training.