Salt: Adattamento della Distribuzione Auto-Consistente con Addestramento Cache-Aware per la Generazione Rapida di Video

Abstract

La distillazione di modelli di generazione video verso budget inferenziali estremamente ridotti (ad es., 2-4 NFE) è cruciale per il deployment in tempo reale, ma rimane una sfida. La distillazione di consistenza in stile traiettoria tende a diventare conservativa sotto dinamiche video complesse, producendo un aspetto eccessivamente levigato e un movimento debole. La distillazione per matching di distribuzione (DMD) può recuperare campioni nitidi e mode-seeking, ma i suoi segnali di training locali non regolarizzano esplicitamente come gli aggiornamenti di denoising si compongono attraverso i timestep, rendendo le rollout composte soggette a deriva. Per superare questa sfida, proponiamo la Self-Consistent Distribution Matching Distillation (SC-DMD), che regolarizza esplicitamente la composizione endpoint-consistent di aggiornamenti di denoising consecutivi. Per la generazione video autoregressiva in tempo reale, trattiamo ulteriormente la cache KV come una condizione parametrizzata per qualità e proponiamo un training Cache-Distribution-Aware. Questo schema di training applica la SC-DMD su rollout multi-step e introduce un obiettivo di allineamento delle feature condizionato alla cache che indirizza gli output di bassa qualità verso riferimenti di alta qualità. In numerosi esperimenti su backbone non autoregressive (ad es., Wan 2.1) e paradigmi autoregressivi in tempo reale (ad es., Self Forcing), il nostro metodo, denominato Salt, migliora costantemente la qualità della generazione video a basso NFE rimanendo compatibile con diversi meccanismi di memoria della cache KV. Il codice sorgente sarà rilasciato su https://github.com/XingtongGe/Salt.

English

Distilling video generation models to extremely low inference budgets (e.g., 2--4 NFEs) is crucial for real-time deployment, yet remains challenging. Trajectory-style consistency distillation often becomes conservative under complex video dynamics, yielding an over-smoothed appearance and weak motion. Distribution matching distillation (DMD) can recover sharp, mode-seeking samples, but its local training signals do not explicitly regularize how denoising updates compose across timesteps, making composed rollouts prone to drift. To overcome this challenge, we propose Self-Consistent Distribution Matching Distillation (SC-DMD), which explicitly regularizes the endpoint-consistent composition of consecutive denoising updates. For real-time autoregressive video generation, we further treat the KV cache as a quality parameterized condition and propose Cache-Distribution-Aware training. This training scheme applies SC-DMD over multi-step rollouts and introduces a cache-conditioned feature alignment objective that steers low-quality outputs toward high-quality references. Across extensive experiments on both non-autoregressive backbones (e.g., Wan~2.1) and autoregressive real-time paradigms (e.g., Self Forcing), our method, dubbed Salt, consistently improves low-NFE video generation quality while remaining compatible with diverse KV-cache memory mechanisms. Source code will be released at https://github.com/XingtongGe/Salt{https://github.com/XingtongGe/Salt}.

Salt: Adattamento della Distribuzione Auto-Consistente con Addestramento Cache-Aware per la Generazione Rapida di Video

Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation

Abstract

Support