자기 재샘플링을 통한 자기회귀 비디오 확산 모델의 종단간 학습
End-to-End Training for Autoregressive Video Diffusion via Self-Resampling
December 17, 2025
저자: Yuwei Guo, Ceyuan Yang, Hao He, Yang Zhao, Meng Wei, Zhenheng Yang, Weilin Huang, Dahua Lin
cs.AI
초록
자동회귀 비디오 확산 모델은 세계 시뮬레이션 가능성으로 주목받지만 훈련-테스트 불일치에서 비롯된 노출 편향에 취약합니다. 기존 연구에서는 사후 훈련을 통해 이 문제를 해결하지만, 대부분 양방향 교사 모델이나 온라인 판별자에 의존합니다. 우리는 종단간 해결책을 위해 교사 모델 없이도 처음부터 대규모로 자동회귀 비디오 모델을 훈련할 수 있는 Resampling Forcing를 제안합니다. 우리 접근법의 핵심은 훈련 중 과거 프레임에 추론 시 모델 오류를 시뮬레이션하는 자체 리샘플링 기법입니다. 이렇게 저하된 과거 프레임을 조건으로 희소 인과 마스크는 시간적 인과성을 보장하면서 프레임 수준 확산 손실을 통한 병렬 훈련을 가능하게 합니다. 또한 효율적인 장기간 생성 구현을 위해 매 쿼리마다 가장 관련성 높은 상위 k개 과거 프레임을 동적으로 추출하는 매개변수 무료 메커니즘인 기록 라우팅을 도입했습니다. 실험 결과, 우리의 접근법은 증류 기반 기준선과 유사한 성능을 달성하면서 원래 길이 훈련 덕분에 더 긴 비디오에서 우수한 시간적 일관성을 보여주었습니다.
English
Autoregressive video diffusion models hold promise for world simulation but are vulnerable to exposure bias arising from the train-test mismatch. While recent works address this via post-training, they typically rely on a bidirectional teacher model or online discriminator. To achieve an end-to-end solution, we introduce Resampling Forcing, a teacher-free framework that enables training autoregressive video models from scratch and at scale. Central to our approach is a self-resampling scheme that simulates inference-time model errors on history frames during training. Conditioned on these degraded histories, a sparse causal mask enforces temporal causality while enabling parallel training with frame-level diffusion loss. To facilitate efficient long-horizon generation, we further introduce history routing, a parameter-free mechanism that dynamically retrieves the top-k most relevant history frames for each query. Experiments demonstrate that our approach achieves performance comparable to distillation-based baselines while exhibiting superior temporal consistency on longer videos owing to native-length training.