ChatPaper.aiChatPaper

Сквозное обучение авторегрессионной видеодиффузии посредством самопередискретизации

End-to-End Training for Autoregressive Video Diffusion via Self-Resampling

December 17, 2025
Авторы: Yuwei Guo, Ceyuan Yang, Hao He, Yang Zhao, Meng Wei, Zhenheng Yang, Weilin Huang, Dahua Lin
cs.AI

Аннотация

Авторегрессионные диффузионные модели для видео демонстрируют потенциал в моделировании мира, но уязвимы к смещению экспозиции, возникающему из-за несоответствия между обучением и тестированием. Хотя последние работы решают эту проблему с помощью пост-обработки, они обычно полагаются на двунаправленную учительскую модель или онлайн-дискриминатор. Для создания сквозного решения мы представляем Resampling Forcing — безучительскую архитектуру, которая позволяет обучать авторегрессионные видео-модели с нуля и в больших масштабах. Ключевым элементом нашего подхода является схема самопередискретизации, которая имитирует ошибки модели на исторических кадрах во время вывода в процессе обучения. Условливаясь на этих деградировавших историях, разреженная причинная маска обеспечивает временную причинность, одновременно позволяя параллельное обучение с использованием диффузионных потерь на уровне кадров. Для эффективного генерации длинных последовательностей мы дополнительно вводим маршрутизацию истории — беспараметрический механизм, который динамически извлекает k наиболее релевантных исторических кадров для каждого запроса. Эксперименты показывают, что наш подход достигает производительности, сопоставимой с базовыми методами на основе дистилляции, демонстрируя при этом превосходную временную согласованность на длинных видео благодаря обучению на нативной длине.
English
Autoregressive video diffusion models hold promise for world simulation but are vulnerable to exposure bias arising from the train-test mismatch. While recent works address this via post-training, they typically rely on a bidirectional teacher model or online discriminator. To achieve an end-to-end solution, we introduce Resampling Forcing, a teacher-free framework that enables training autoregressive video models from scratch and at scale. Central to our approach is a self-resampling scheme that simulates inference-time model errors on history frames during training. Conditioned on these degraded histories, a sparse causal mask enforces temporal causality while enabling parallel training with frame-level diffusion loss. To facilitate efficient long-horizon generation, we further introduce history routing, a parameter-free mechanism that dynamically retrieves the top-k most relevant history frames for each query. Experiments demonstrate that our approach achieves performance comparable to distillation-based baselines while exhibiting superior temporal consistency on longer videos owing to native-length training.
PDF95December 19, 2025