Sal: Correspondência de Distribuição Autoconsistente com Treinamento Consciente da Cache para Geração Rápida de Vídeos

Resumo

A destilação de modelos de geração de vídeo para orçamentos de inferência extremamente baixos (por exemplo, 2-4 NFEs) é crucial para implantação em tempo real, mas continua a ser um desafio. A destilação por consistência de trajetória tende a tornar-se conservadora sob dinâmicas de vídeo complexas, produzindo uma aparência excessivamente suavizada e movimento fraco. A destilação por correspondência de distribuição (DMD) pode recuperar amostras nítidas e com busca de modos, mas os seus sinais de treino locais não regulam explicitamente como as atualizações de remoção de ruído se compõem ao longo dos intervalos de tempo, tornando as composições propensas a desvios. Para superar este desafio, propomos a Destilação por Correspondência de Distribuição Auto-Consistente (SC-DMD), que regula explicitamente a composição consistente no ponto final de atualizações consecutivas de remoção de ruído. Para geração de vídeo autoregressiva em tempo real, tratamos adicionalmente a cache KV como uma condição parametrizada pela qualidade e propomos o Treino Consciente da Cache-Distribuição. Este esquema de treino aplica SC-DMD sobre composições multi-etapa e introduz um objetivo de alinhamento de características condicionado pela cache que direciona saídas de baixa qualidade para referências de alta qualidade. Através de extensivas experiências em backbones não-autoregressivos (por exemplo, Wan 2.1) e paradigmas de tempo real autoregressivos (por exemplo, Self Forcing), o nosso método, denominado Salt, melhora consistentemente a qualidade da geração de vídeo com baixo NFE, mantendo compatibilidade com diversos mecanismos de memória de cache KV. O código fonte será disponibilizado em https://github.com/XingtongGe/Salt.

English

Distilling video generation models to extremely low inference budgets (e.g., 2--4 NFEs) is crucial for real-time deployment, yet remains challenging. Trajectory-style consistency distillation often becomes conservative under complex video dynamics, yielding an over-smoothed appearance and weak motion. Distribution matching distillation (DMD) can recover sharp, mode-seeking samples, but its local training signals do not explicitly regularize how denoising updates compose across timesteps, making composed rollouts prone to drift. To overcome this challenge, we propose Self-Consistent Distribution Matching Distillation (SC-DMD), which explicitly regularizes the endpoint-consistent composition of consecutive denoising updates. For real-time autoregressive video generation, we further treat the KV cache as a quality parameterized condition and propose Cache-Distribution-Aware training. This training scheme applies SC-DMD over multi-step rollouts and introduces a cache-conditioned feature alignment objective that steers low-quality outputs toward high-quality references. Across extensive experiments on both non-autoregressive backbones (e.g., Wan~2.1) and autoregressive real-time paradigms (e.g., Self Forcing), our method, dubbed Salt, consistently improves low-NFE video generation quality while remaining compatible with diverse KV-cache memory mechanisms. Source code will be released at https://github.com/XingtongGe/Salt{https://github.com/XingtongGe/Salt}.

Sal: Correspondência de Distribuição Autoconsistente com Treinamento Consciente da Cache para Geração Rápida de Vídeos

Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation

Resumo

Support