Спекулятивное декодирование для авторегрессионного генерации видео

Аннотация

Авторегрессионная диффузия видео становится перспективной парадигмой для синтеза потокового видео, где дистилляция шагов служит основным методом ускорения вывода. Остается открытым вопрос, можно ли эффективно адаптировать спекулятивное декодирование — доминирующую стратегию ускорения больших языковых моделей — к авторегрессионной генерации видео, поскольку видео-блоки представляют собой непрерывные пространственно-временные тензоры без токен-уровневого распределения для точного rejection sampling. Мы представляем SDVG, который применяет спекулятивное декодирование к блочной авторегрессионной видео-диффузии, заменяя проверку токенов на маршрутизатор по качеству изображения. Драфтер объемом 1,3 млрд параметров предлагает кандидатные блоки за четыре шага денойзинга; каждый блок декодируется через VAE и оценивается с помощью ImageReward с агрегацией по наихудшему кадру — берется минимальная награда за кадр, чтобы выявить артефакты в отдельных кадрах, которые усреднение могло бы скрыть. Блоки с оценкой выше фиксированного порога τ принимаются в KV-кэш целевой модели на 14 млрд параметров; остальные перегенерируются целевой моделью. Два дополнительных конструктивных решения оказываются ключевыми: первый блок всегда принудительно отвергается для фиксации композиции сцены, а τ служит единственным регулятором, позволяющим построить плавную Парето-границу качества и скорости. На 1003 промптах MovieGenVideoBench (832x480) SDVG сохраняет 98,1% качества целевой модели по VisionReward (0,0773 против 0,0788) при ускорении в 1,59 раза с τ=-0,7 и достигает ускорения в 2,09 раза при сохранении 95,7% качества — стабильно превосходя генерацию только драфтером более чем на +17%. Фреймворк не требует дообучения, не вносит изменений в архитектуру и может быть бесшовно интегрирован в существующие pipelines авторегрессионной генерации видео.

English

Autoregressive video diffusion is emerging as a promising paradigm for streaming video synthesis, with step distillation serving as the primary means of accelerating inference. Whether speculative decoding, the dominant acceleration strategy for large language models, can be effectively adapted to autoregressive video generation remains an open question, because video blocks are continuous spatiotemporal tensors with no token-level distribution for exact rejection sampling. We introduce SDVG, which brings speculative decoding to block-based autoregressive video diffusion by replacing token verification with an image-quality router. A 1.3B drafter proposes candidate blocks via four denoising steps; each block is VAE-decoded and scored by ImageReward using worst-frame aggregation--taking the minimum per-frame reward to catch single-frame artifacts that averaging would mask. Blocks scoring above a fixed threshold tau are accepted into the 14B target's KV cache; the rest are regenerated by the target. Two additional design choices prove critical: the first block is always force-rejected to anchor scene composition, and tau serves as a single knob that traces a smooth quality-speed Pareto frontier. On 1003 MovieGenVideoBench prompts (832x480), SDVG retains 98.1% of target-only VisionReward quality (0.0773 vs. 0.0788) at a 1.59x speedup with tau=-0.7, and reaches 2.09x at 95.7% quality retention--while consistently outperforming draft-only generation by over +17%. The framework is training-free, requires no architectural changes, and can be seamlessly integrated into existing autoregressive video generation pipelines.

Спекулятивное декодирование для авторегрессионного генерации видео

Speculative Decoding for Autoregressive Video Generation

Аннотация

Support