Selon le texte fourni, voici une traduction française adaptée au contexte académique : **Sel : Appariement de Distribution Auto-Cohérent avec Entraînement Conscient du Cache pour une Génération Vidéo Rapide** **Explication :** * **Sel** : Acronyme conservé, comme c'est souvent l'usage pour les noms de modèles (DALL-E, Stable Diffusion). Il est courant de ne pas traduire les acronymes. * **Self-Consistent Distribution Matching** : Traduit par **"Appariement de Distribution Auto-Cohérent"**. "Self-Consistent" se traduit bien par "auto-cohérent" dans un contexte mathématique/informatique. "Distribution Matching" est un terme technique standard traduit par "appariement de distribution". * **Cache-Aware Training** : Traduit par **"Entraînement Conscient du Cache"**. "Cache-Aware" signifie que l'algorithme est conçu pour tenir compte de la mémoire cache. "Conscient du" est une traduction naturelle et précise ici. "Training" est "entraînement" dans le contexte du Machine Learning. * **for Fast Video Generation** : Traduit par **"pour une Génération Vidéo Rapide"**. La structure est simple et claire. Cette traduction respecte la terminologie technique tout en restant fluide en français.
Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation
April 3, 2026
Auteurs: Xingtong Ge, Yi Zhang, Yushi Huang, Dailan He, Xiahong Wang, Bingqi Ma, Guanglu Song, Yu Liu, Jun Zhang
cs.AI
Résumé
La distillation des modèles de génération vidéo vers des budgets d'inférence extrêmement réduits (par exemple, 2-4 NFE) est cruciale pour un déploiement en temps réel, mais reste difficile. La distillation par cohérence de trajectoire devient souvent conservatrice sous des dynamiques vidéo complexes, produisant un aspect trop lissé et un mouvement faible. La distillation par appariement de distributions (DMD) peut retrouver des échantillons nets et mode-seeking, mais ses signaux d'entraînement locaux ne régularisent pas explicitement la composition des mises à jour de débruitage entre les pas de temps, rendant les déploiements composés sujets à la dérive. Pour surmonter cette difficulté, nous proposons la Distillation par Appariement de Distributions Auto-Cohérente (SC-DMD), qui régularise explicitement la composition cohérente en point final des mises à jour de débruitage consécutives. Pour la génération vidéo autorégressive en temps réel, nous traitons en outre le cache KV comme une condition paramétrée par la qualité et proposons un entraînement Sensible au Cache et à la Distribution. Ce schéma d'entraînement applique SC-DMD sur des déploiements multi-pas et introduit un objectif d'alignement de caractéristiques conditionné par le cache qui oriente les sorties de faible qualité vers des références de haute qualité. À travers de nombreuses expériences sur des architectures non autorégressives (par exemple, Wan~2.1) et des paradigmes temps réel autorégressifs (par exemple, Self Forcing), notre méthode, baptisée Salt, améliore constamment la qualité de la génération vidéo à faible NFE tout en restant compatible avec divers mécanismes de mémoire par cache KV. Le code source sera publié sur https://github.com/XingtongGe/Salt.
English
Distilling video generation models to extremely low inference budgets (e.g., 2--4 NFEs) is crucial for real-time deployment, yet remains challenging. Trajectory-style consistency distillation often becomes conservative under complex video dynamics, yielding an over-smoothed appearance and weak motion. Distribution matching distillation (DMD) can recover sharp, mode-seeking samples, but its local training signals do not explicitly regularize how denoising updates compose across timesteps, making composed rollouts prone to drift. To overcome this challenge, we propose Self-Consistent Distribution Matching Distillation (SC-DMD), which explicitly regularizes the endpoint-consistent composition of consecutive denoising updates. For real-time autoregressive video generation, we further treat the KV cache as a quality parameterized condition and propose Cache-Distribution-Aware training. This training scheme applies SC-DMD over multi-step rollouts and introduces a cache-conditioned feature alignment objective that steers low-quality outputs toward high-quality references. Across extensive experiments on both non-autoregressive backbones (e.g., Wan~2.1) and autoregressive real-time paradigms (e.g., Self Forcing), our method, dubbed Salt, consistently improves low-NFE video generation quality while remaining compatible with diverse KV-cache memory mechanisms. Source code will be released at https://github.com/XingtongGe/Salt{https://github.com/XingtongGe/Salt}.