**Salt: 빠른 비디오 생성을 위한 캐시 인식 학습 기반 자기 일관성 분포 매칭**
Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation
April 3, 2026
저자: Xingtong Ge, Yi Zhang, Yushi Huang, Dailan He, Xiahong Wang, Bingqi Ma, Guanglu Song, Yu Liu, Jun Zhang
cs.AI
초록
비디오 생성 모델을 극도로 낮은 추론 예산(예: 2-4회 NFE)으로 축소하는 것은 실시간 배포에 중요하지만 여전히 어려운 과제로 남아 있습니다. 궤적 기반 일관성 증류는 복잡한 비디오 역학 하에서 보수적으로 변하는 경향이 있어 과도하게 평활화된 외관과 약한 동작을 생성합니다. 분포 매칭 증류는 선명하고 모드 추출적인 샘플을 복원할 수 있지만, 그 지역적 훈련 신호는 디노이징 업데이트가 타임스텝에 걸쳐 어떻게 구성되는지를 명시적으로 규제하지 않아 구성된 롤아웃이 표류하기 쉽습니다. 이러한 문제를 극복하기 위해, 우리는 연속적인 디노이징 업데이트의 끝점 일관성 구성을 명시적으로 규제하는 자기 일관성 분포 매칭 증류를 제안합니다. 실시간 자기회귀 비디오 생성을 위해, 우리는 KV 캐시를 품질 매개변수화 조건으로 추가 처리하고 캐시 분포 인식 훈련을 제안합니다. 이 훈련 기법은 다단계 롤아웃에 SC-DMD를 적용하며, 저품질 출력을 고품질 참조로 유도하는 캐시 조건화 특징 정렬 목적함수를 도입합니다. 비자기회귀 백본(예: Wan~2.1)과 자기회귀 실시간 패러다임(예: Self Forcing) 모두에 대한 광범위한 실험에서, Salt로 명명된 우리의 방법은 다양한 KV 캐시 메모리 메커니즘과 호환성을 유지하면서 낮은 NFE 비디오 생성 품질을 지속적으로 향상시켰습니다. 소스 코드는 https://github.com/XingtongGe/Salt 에 공개될 예정입니다.
English
Distilling video generation models to extremely low inference budgets (e.g., 2--4 NFEs) is crucial for real-time deployment, yet remains challenging. Trajectory-style consistency distillation often becomes conservative under complex video dynamics, yielding an over-smoothed appearance and weak motion. Distribution matching distillation (DMD) can recover sharp, mode-seeking samples, but its local training signals do not explicitly regularize how denoising updates compose across timesteps, making composed rollouts prone to drift. To overcome this challenge, we propose Self-Consistent Distribution Matching Distillation (SC-DMD), which explicitly regularizes the endpoint-consistent composition of consecutive denoising updates. For real-time autoregressive video generation, we further treat the KV cache as a quality parameterized condition and propose Cache-Distribution-Aware training. This training scheme applies SC-DMD over multi-step rollouts and introduces a cache-conditioned feature alignment objective that steers low-quality outputs toward high-quality references. Across extensive experiments on both non-autoregressive backbones (e.g., Wan~2.1) and autoregressive real-time paradigms (e.g., Self Forcing), our method, dubbed Salt, consistently improves low-NFE video generation quality while remaining compatible with diverse KV-cache memory mechanisms. Source code will be released at https://github.com/XingtongGe/Salt{https://github.com/XingtongGe/Salt}.