Соль: Самосогласованное согласование распределений с кэш-осознанным обучением для быстрого генеративного видео
Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation
April 3, 2026
Авторы: Xingtong Ge, Yi Zhang, Yushi Huang, Dailan He, Xiahong Wang, Bingqi Ma, Guanglu Song, Yu Liu, Jun Zhang
cs.AI
Аннотация
Дистилляция моделей генерации видео до экстремально низких бюджетов вывода (например, 2–4 шага NFE) крайне важна для развертывания в реальном времени, но остается сложной задачей. Дистилляция в стиле траекторной согласованности часто становится излишне консервативной при сложной динамике видео, приводя к излишне сглаженному виду и слабому движению. Дистилляция с согласованием распределений (DMD) позволяет получать четкие, модо-ориентированные сэмплы, но ее локальные сигналы обучения не регулируют явно то, как шаги денойзинга комбинируются на протяжении временных шагов, что делает составные rollout-ы склонными к дрейфу. Чтобы преодолеть эту проблему, мы предлагаем Самосогласованную дистилляцию с согласованием распределений (SC-DMD), которая явно регулирует согласованную по конечной точке композицию последовательных шагов денойзинга. Для авторегрессионной генерации видео в реальном времени мы дополнительно рассматриваем KV-кэш как параметризованное условие качества и предлагаем обучение с учетом распределения кэша (Cache-Distribution-Aware training). Эта схема обучения применяет SC-DMD к многошаговым rollout-ам и вводит цель выравнивания признаков, обусловленных кэшем, которая направляет выходы низкого качества к эталонным высокого качества. В обширных экспериментах как на неавторегрессионных базовых моделях (например, Wan~2.1), так и на авторегрессионных парадигмах реального времени (например, Self Forcing), наш метод, названный Salt, последовательно улучшает качество генерации видео при малом числе шагов NFE, оставаясь совместимым с различными механизмами памяти KV-кэша. Исходный код будет доступен по адресу https://github.com/XingtongGe/Salt.
English
Distilling video generation models to extremely low inference budgets (e.g., 2--4 NFEs) is crucial for real-time deployment, yet remains challenging. Trajectory-style consistency distillation often becomes conservative under complex video dynamics, yielding an over-smoothed appearance and weak motion. Distribution matching distillation (DMD) can recover sharp, mode-seeking samples, but its local training signals do not explicitly regularize how denoising updates compose across timesteps, making composed rollouts prone to drift. To overcome this challenge, we propose Self-Consistent Distribution Matching Distillation (SC-DMD), which explicitly regularizes the endpoint-consistent composition of consecutive denoising updates. For real-time autoregressive video generation, we further treat the KV cache as a quality parameterized condition and propose Cache-Distribution-Aware training. This training scheme applies SC-DMD over multi-step rollouts and introduces a cache-conditioned feature alignment objective that steers low-quality outputs toward high-quality references. Across extensive experiments on both non-autoregressive backbones (e.g., Wan~2.1) and autoregressive real-time paradigms (e.g., Self Forcing), our method, dubbed Salt, consistently improves low-NFE video generation quality while remaining compatible with diverse KV-cache memory mechanisms. Source code will be released at https://github.com/XingtongGe/Salt{https://github.com/XingtongGe/Salt}.