Addestramento End-to-End per la Diffusione Autoregressiva di Video tramite Auto-Ricampionamento
End-to-End Training for Autoregressive Video Diffusion via Self-Resampling
December 17, 2025
Autori: Yuwei Guo, Ceyuan Yang, Hao He, Yang Zhao, Meng Wei, Zhenheng Yang, Weilin Huang, Dahua Lin
cs.AI
Abstract
I modelli di diffusione video autoregressivi mostrano potenziale per la simulazione del mondo, ma sono vulnerabili al bias di esposizione derivante dalla discrepanza tra addestramento e test. Sebbene lavori recenti affrontino il problema mediante post-addestramento, questi generalmente si basano su un modello insegnante bidirezionale o su un discriminatore online. Per ottenere una soluzione end-to-end, introduciamo Resampling Forcing, un framework senza insegnante che consente l'addestramento di modelli video autoregressivi da zero e su larga scala. Elemento centrale del nostro approccio è uno schema di auto-ricampionamento che simula gli errori del modello al momento dell'inferenza sui frame storici durante l'addestramento. Condizionato da questi frame storici degradati, una maschera causale sparsa impone la causalità temporale consentendo al contempo un addestramento parallelo con una loss di diffusione a livello di frame. Per facilitare una generazione efficiente di sequenze lunghe, introduciamo inoltre l'instradamento della cronologia (history routing), un meccanismo privo di parametri che recupera dinamicamente i k frame storici più rilevanti per ogni query. Gli esperimenti dimostrano che il nostro approccio raggiunge prestazioni comparabili ai baseline basati sulla distillazione, mostrando al contempo una superiore coerenza temporale su video più lunghi grazie all'addestramento su sequenze di lunghezza nativa.
English
Autoregressive video diffusion models hold promise for world simulation but are vulnerable to exposure bias arising from the train-test mismatch. While recent works address this via post-training, they typically rely on a bidirectional teacher model or online discriminator. To achieve an end-to-end solution, we introduce Resampling Forcing, a teacher-free framework that enables training autoregressive video models from scratch and at scale. Central to our approach is a self-resampling scheme that simulates inference-time model errors on history frames during training. Conditioned on these degraded histories, a sparse causal mask enforces temporal causality while enabling parallel training with frame-level diffusion loss. To facilitate efficient long-horizon generation, we further introduce history routing, a parameter-free mechanism that dynamically retrieves the top-k most relevant history frames for each query. Experiments demonstrate that our approach achieves performance comparable to distillation-based baselines while exhibiting superior temporal consistency on longer videos owing to native-length training.