ChatPaper.aiChatPaper

End-to-end training voor autoregressieve videodiffusie via zelf-hersampling

End-to-End Training for Autoregressive Video Diffusion via Self-Resampling

December 17, 2025
Auteurs: Yuwei Guo, Ceyuan Yang, Hao He, Yang Zhao, Meng Wei, Zhenheng Yang, Weilin Huang, Dahua Lin
cs.AI

Samenvatting

Autoregressieve videodiffusiemodellen zijn veelbelovend voor wereldsimulatie, maar zijn kwetsbaar voor exposure bias die ontstaat door een mismatch tussen training en testen. Hoewel recente onderzoeken dit aanpakken via post-training, baseren zij zich doorgaans op een bidirectioneel leraarmodel of een online discriminator. Voor een end-to-end oplossing introduceren wij Resampling Forcing, een leraarvrij raamwerk dat het mogelijk maakt autoregressieve videomodellen vanaf nul en op grote schaal te trainen. Centraal in onze aanpak staat een zelf-hersamplingschema dat modelfouten tijdens inferentie simuleert op historieframes tijdens de training. Geconditioneerd op deze gedegradeerde historieën, dwingt een sparse causaal masker temporele causaliteit af terwijl parallelle training met frame-level diffusieverlies mogelijk blijft. Om efficiënte langetermijngeneratie te vergemakkelijken, introduceren wij verder history routing, een parameterloos mechanisme dat dynamisch de top-k meest relevante historieframes ophaalt voor elke query. Experimenten tonen aan dat onze aanpak prestaties bereikt die vergelijkbaar zijn met op distillatie gebaseerde baseline-methoden, terwijl zij superieure temporele consistentie vertoont op langere video's dankzij training op originele lengte.
English
Autoregressive video diffusion models hold promise for world simulation but are vulnerable to exposure bias arising from the train-test mismatch. While recent works address this via post-training, they typically rely on a bidirectional teacher model or online discriminator. To achieve an end-to-end solution, we introduce Resampling Forcing, a teacher-free framework that enables training autoregressive video models from scratch and at scale. Central to our approach is a self-resampling scheme that simulates inference-time model errors on history frames during training. Conditioned on these degraded histories, a sparse causal mask enforces temporal causality while enabling parallel training with frame-level diffusion loss. To facilitate efficient long-horizon generation, we further introduce history routing, a parameter-free mechanism that dynamically retrieves the top-k most relevant history frames for each query. Experiments demonstrate that our approach achieves performance comparable to distillation-based baselines while exhibiting superior temporal consistency on longer videos owing to native-length training.
PDF95December 19, 2025