ChatPaper.aiChatPaper

Потоковая авторегрессионная генерация видео с помощью диагонального дистилляции

Streaming Autoregressive Video Generation via Diagonal Distillation

March 10, 2026
Авторы: Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu
cs.AI

Аннотация

Крупные предобученные диффузионные модели значительно повысили качество генерируемых видео, однако их использование в потоковой передаче в реальном времени остается ограниченным. Авторегрессионные модели предлагают естественную основу для последовательного синтеза кадров, но требуют значительных вычислительных ресурсов для достижения высокой точности. Дистилляция диффузии позволяет сжимать эти модели в эффективные варианты с малым количеством шагов, однако существующие подходы к дистилляции видео в основном адаптируют методы, специфичные для изображений, которые игнорируют временные зависимости. Эти методы часто преуспевают в генерации изображений, но демонстрируют худшие результаты в синтезе видео, проявляя сниженную согласованность движения, накопление ошибок в длинных последовательностях и компромисс между задержкой и качеством. Мы выделяем два фактора, приводящих к этим ограничениям: недостаточное использование временного контекста при сокращении шагов и неявное предсказание последующих уровней шума при прогнозировании следующего фрагмента (т.е. смещение экспозиции). Для решения этих проблем мы предлагаем метод диагональной дистилляции, который действует ортогонально существующим подходам и лучше использует временную информацию как между фрагментами видео, так и между шагами денойзинга. Ключевым элементом нашего подхода является асимметричная стратегия генерации: больше шагов в начале, меньше шагов позже. Такая конструкция позволяет последующим фрагментам наследовать богатую информацию о внешнем виде от тщательно обработанных начальных фрагментов, используя частично очищенные от шума фрагменты в качестве условных входных данных для последующего синтеза. Согласовывая неявное предсказание последующих уровней шума во время генерации фрагментов с реальными условиями вывода, наш подход смягчает распространение ошибок и снижает перенасыщенность в длинных последовательностях. Мы дополнительно включаем неявное моделирование оптического потока для сохранения качества движения при строгих ограничениях на количество шагов. Наш метод генерирует 5-секундное видео за 2,61 секунды (до 31 кадра в секунду), обеспечивая ускорение в 277,3 раза по сравнению с недистиллированной моделью.
English
Large pretrained diffusion models have significantly enhanced the quality of generated videos, and yet their use in real-time streaming remains limited. Autoregressive models offer a natural framework for sequential frame synthesis but require heavy computation to achieve high fidelity. Diffusion distillation can compress these models into efficient few-step variants, but existing video distillation approaches largely adapt image-specific methods that neglect temporal dependencies. These techniques often excel in image generation but underperform in video synthesis, exhibiting reduced motion coherence, error accumulation over long sequences, and a latency-quality trade-off. We identify two factors that result in these limitations: insufficient utilization of temporal context during step reduction and implicit prediction of subsequent noise levels in next-chunk prediction (i.e., exposure bias). To address these issues, we propose Diagonal Distillation, which operates orthogonally to existing approaches and better exploits temporal information across both video chunks and denoising steps. Central to our approach is an asymmetric generation strategy: more steps early, fewer steps later. This design allows later chunks to inherit rich appearance information from thoroughly processed early chunks, while using partially denoised chunks as conditional inputs for subsequent synthesis. By aligning the implicit prediction of subsequent noise levels during chunk generation with the actual inference conditions, our approach mitigates error propagation and reduces oversaturation in long-range sequences. We further incorporate implicit optical flow modeling to preserve motion quality under strict step constraints. Our method generates a 5-second video in 2.61 seconds (up to 31 FPS), achieving a 277.3x speedup over the undistilled model.
PDF51March 12, 2026