Соль: Самосогласованное согласование распределений с кэш-осознанным обучением для быстрого генеративного видео

Аннотация

Дистилляция моделей генерации видео до экстремально низких бюджетов вывода (например, 2–4 шага NFE) крайне важна для развертывания в реальном времени, но остается сложной задачей. Дистилляция в стиле траекторной согласованности часто становится излишне консервативной при сложной динамике видео, приводя к излишне сглаженному виду и слабому движению. Дистилляция с согласованием распределений (DMD) позволяет получать четкие, модо-ориентированные сэмплы, но ее локальные сигналы обучения не регулируют явно то, как шаги денойзинга комбинируются на протяжении временных шагов, что делает составные rollout-ы склонными к дрейфу. Чтобы преодолеть эту проблему, мы предлагаем Самосогласованную дистилляцию с согласованием распределений (SC-DMD), которая явно регулирует согласованную по конечной точке композицию последовательных шагов денойзинга. Для авторегрессионной генерации видео в реальном времени мы дополнительно рассматриваем KV-кэш как параметризованное условие качества и предлагаем обучение с учетом распределения кэша (Cache-Distribution-Aware training). Эта схема обучения применяет SC-DMD к многошаговым rollout-ам и вводит цель выравнивания признаков, обусловленных кэшем, которая направляет выходы низкого качества к эталонным высокого качества. В обширных экспериментах как на неавторегрессионных базовых моделях (например, Wan~2.1), так и на авторегрессионных парадигмах реального времени (например, Self Forcing), наш метод, названный Salt, последовательно улучшает качество генерации видео при малом числе шагов NFE, оставаясь совместимым с различными механизмами памяти KV-кэша. Исходный код будет доступен по адресу https://github.com/XingtongGe/Salt.

English

Distilling video generation models to extremely low inference budgets (e.g., 2--4 NFEs) is crucial for real-time deployment, yet remains challenging. Trajectory-style consistency distillation often becomes conservative under complex video dynamics, yielding an over-smoothed appearance and weak motion. Distribution matching distillation (DMD) can recover sharp, mode-seeking samples, but its local training signals do not explicitly regularize how denoising updates compose across timesteps, making composed rollouts prone to drift. To overcome this challenge, we propose Self-Consistent Distribution Matching Distillation (SC-DMD), which explicitly regularizes the endpoint-consistent composition of consecutive denoising updates. For real-time autoregressive video generation, we further treat the KV cache as a quality parameterized condition and propose Cache-Distribution-Aware training. This training scheme applies SC-DMD over multi-step rollouts and introduces a cache-conditioned feature alignment objective that steers low-quality outputs toward high-quality references. Across extensive experiments on both non-autoregressive backbones (e.g., Wan~2.1) and autoregressive real-time paradigms (e.g., Self Forcing), our method, dubbed Salt, consistently improves low-NFE video generation quality while remaining compatible with diverse KV-cache memory mechanisms. Source code will be released at https://github.com/XingtongGe/Salt{https://github.com/XingtongGe/Salt}.

Соль: Самосогласованное согласование распределений с кэш-осознанным обучением для быстрого генеративного видео

Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation

Аннотация

Support