Salt: Selbstkonsistente Verteilungsanpassung mit Cache-bewusstem Training für schnelle Videogenerierung
Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation
April 3, 2026
Autoren: Xingtong Ge, Yi Zhang, Yushi Huang, Dailan He, Xiahong Wang, Bingqi Ma, Guanglu Song, Yu Liu, Jun Zhang
cs.AI
Zusammenfassung
Die Destillation von Videogenerierungsmodellen für extrem niedrige Inferenzbudgets (z.B. 2–4 NFEs) ist für den Echtzeiteinsatz entscheidend, bleibt jedoch eine Herausforderung. Trajektorienbasierte Konsistenzdestillation neigt bei komplexer Videodynamik oft zu konservativen Ergebnissen, was zu übermäßig geglätteten Darstellungen und schwacher Bewegung führt. Distributionsabgleichsdestillation (DMD) kann scharfe, modus-suchende Samples erzeugen, aber ihre lokalen Trainingssignale regularisieren nicht explizit, wie Entrauschungsupdates über Zeitschritte hinweg zusammengesetzt werden, was zusammengesetzte Rollouts anfällig für Drift macht. Um diese Herausforderung zu bewältigen, schlagen wir Selbstkonsistente Distributionsabgleichsdestillation (SC-DMD) vor, die die endpunktkonsistente Zusammensetzung aufeinanderfolgender Entrauschungsupdates explizit regularisiert. Für die Echtzeit-autoregressive Videogenerierung behandeln wir den KV-Cache weiterhin als qualitätsparametrisierte Bedingung und schlagen Cache-Distributionsbewusstes Training vor. Dieses Trainingsschema wendet SC-DMD auf mehrstufige Rollouts an und führt ein cache-konditioniertes Feature-Alignment-Ziel ein, das qualitativ niedrige Ausgaben in Richtung hochwertiger Referenzen lenkt. In umfangreichen Experimenten mit nicht-autoregressiven Backbones (z.B. Wan~2.1) und autoregressiven Echtzeit-Paradigmen (z.B. Self Forcing) verbessert unsere Methode, genannt Salt, konsistent die Qualität der Videogenerierung bei niedrigen NFE-Werten, während sie kompatibel mit verschiedenen KV-Cache-Speichermechanismen bleibt. Der Quellcode wird unter https://github.com/XingtongGe/Salt veröffentlicht.
English
Distilling video generation models to extremely low inference budgets (e.g., 2--4 NFEs) is crucial for real-time deployment, yet remains challenging. Trajectory-style consistency distillation often becomes conservative under complex video dynamics, yielding an over-smoothed appearance and weak motion. Distribution matching distillation (DMD) can recover sharp, mode-seeking samples, but its local training signals do not explicitly regularize how denoising updates compose across timesteps, making composed rollouts prone to drift. To overcome this challenge, we propose Self-Consistent Distribution Matching Distillation (SC-DMD), which explicitly regularizes the endpoint-consistent composition of consecutive denoising updates. For real-time autoregressive video generation, we further treat the KV cache as a quality parameterized condition and propose Cache-Distribution-Aware training. This training scheme applies SC-DMD over multi-step rollouts and introduces a cache-conditioned feature alignment objective that steers low-quality outputs toward high-quality references. Across extensive experiments on both non-autoregressive backbones (e.g., Wan~2.1) and autoregressive real-time paradigms (e.g., Self Forcing), our method, dubbed Salt, consistently improves low-NFE video generation quality while remaining compatible with diverse KV-cache memory mechanisms. Source code will be released at https://github.com/XingtongGe/Salt{https://github.com/XingtongGe/Salt}.