Sal: Coincidencia de Distribución Autoconsistente con Entrenamiento Consciente de la Caché para Generación Rápida de Video
Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation
April 3, 2026
Autores: Xingtong Ge, Yi Zhang, Yushi Huang, Dailan He, Xiahong Wang, Bingqi Ma, Guanglu Song, Yu Liu, Jun Zhang
cs.AI
Resumen
La destilación de modelos de generación de vídeo para ajustarse a presupuestos de inferencia extremadamente bajos (por ejemplo, 2-4 NFE) es crucial para su despliegue en tiempo real, pero sigue siendo un desafío. La destilación por consistencia de tipo trayectoria a menudo se vuelve conservadora bajo dinámicas de vídeo complejas, produciendo una apariencia sobresuavizada y un movimiento débil. La destilación por correspondencia de distribuciones (DMD) puede recuperar muestras nítidas y con búsqueda de modos, pero sus señales de entrenamiento local no regulan explícitamente cómo se componen las actualizaciones de eliminación de ruido a lo largo de los intervalos de tiempo, lo que hace que las secuencias generadas compuestas sean propensas a la deriva. Para superar este desafío, proponemos la Destilación por Correspondencia de Distribuciones Auto-Consistente (SC-DMD), que regula explícitamente la composición consistente en el punto final de las actualizaciones consecutivas de eliminación de ruido. Para la generación de vídeo autoregresiva en tiempo real, tratamos adicionalmente la caché KV como una condición parametrizada por calidad y proponemos un entrenamiento Consciente de la Caché-Distribución. Este esquema de entrenamiento aplica SC-DMD sobre secuencias multi-paso e introduce un objetivo de alineación de características condicionado por la caché que dirige las salidas de baja calidad hacia referencias de alta calidad. En numerosos experimentos con arquitecturas no autoregresivas (por ejemplo, Wan~2.1) y paradigmas de tiempo real autoregresivos (por ejemplo, Self Forcing), nuestro método, denominado Salt, mejora consistentemente la calidad de la generación de vídeo con bajo NFE, manteniendo la compatibilidad con diversos mecanismos de memoria de caché KV. El código fuente se publicará en https://github.com/XingtongGe/Salt.
English
Distilling video generation models to extremely low inference budgets (e.g., 2--4 NFEs) is crucial for real-time deployment, yet remains challenging. Trajectory-style consistency distillation often becomes conservative under complex video dynamics, yielding an over-smoothed appearance and weak motion. Distribution matching distillation (DMD) can recover sharp, mode-seeking samples, but its local training signals do not explicitly regularize how denoising updates compose across timesteps, making composed rollouts prone to drift. To overcome this challenge, we propose Self-Consistent Distribution Matching Distillation (SC-DMD), which explicitly regularizes the endpoint-consistent composition of consecutive denoising updates. For real-time autoregressive video generation, we further treat the KV cache as a quality parameterized condition and propose Cache-Distribution-Aware training. This training scheme applies SC-DMD over multi-step rollouts and introduces a cache-conditioned feature alignment objective that steers low-quality outputs toward high-quality references. Across extensive experiments on both non-autoregressive backbones (e.g., Wan~2.1) and autoregressive real-time paradigms (e.g., Self Forcing), our method, dubbed Salt, consistently improves low-NFE video generation quality while remaining compatible with diverse KV-cache memory mechanisms. Source code will be released at https://github.com/XingtongGe/Salt{https://github.com/XingtongGe/Salt}.