ChatPaper.aiChatPaper

보상 강제: 보상 기반 분산 매칭 증류를 통한 효율적인 스트리밍 비디오 생성

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

December 4, 2025
저자: Yunhong Lu, Yanhong Zeng, Haobo Li, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Jiapeng Zhu, Hengyuan Cao, Zhipeng Zhang, Xing Zhu, Yujun Shen, Min Zhang
cs.AI

초록

효율적인 스트리밍 비디오 생성은 상호작용적이고 동적인 세계를 시뮬레이션하는 데 중요합니다. 기존 방법들은 슬라이딩 윈도우 어텐션을 사용하여 few-step 비디오 확산 모델을 증류하며, 초기 프레임을 싱크 토큰으로 활용하여 어텐션 성능을 유지하고 오류 누적을 줄입니다. 그러나 이로 인해 비디오 프레임이 이러한 정적 토큰에 지나치게 의존하게 되어 초기 프레임이 복사되고 동적 모션 표현이 약화되는 문제가 발생합니다. 이를 해결하기 위해 우리는 두 가지 핵심 설계로 구성된 새로운 프레임워크인 Reward Forcing을 소개합니다. 첫째, EMA-Sink를 제안합니다. 이는 초기 프레임에서 초기화된 고정 크기 토큰을 유지하며, 슬라이딩 윈도우에서 제거되는 토큰들을 지수 이동 평균을 통해 지속적으로 융합하여 갱신합니다. 추가 계산 비용 없이 EMA-Sink 토큰은 장기적인 맥락과 최근 동적 특성을 모두 포착하여 초기 프레임 복사를 방지하면서 장기 일관성을 유지합니다. 둘째, 교사 모델로부터 모션 역학을 더 효과적으로 증류하기 위해 Rewarded Distribution Matching Distillation(Re-DMD)을 제안합니다. 일반적인 분포 매칭은 모든 훈련 샘플을 동등하게 취급하여 모델이 동적 콘텐츠를 우선시하는 능력을 제한합니다. 대신 Re-DMD는 비전-언어 모델이 평가한 동적 점수가 높은 샘플을 우선적으로 활용하여 모델의 출력 분포를 높은 보상 영역으로 편향시킵니다. Re-DMD는 데이터 충실도를 보존하면서 모션 품질을 크게 향상시킵니다. 우리는 양적 및 질적 실험을 통해 Reward Forcing이 표준 벤치마크에서 최첨단 성능을 달성함과 동시에 단일 H100 GPU에서 23.1 FPS의 고품질 스트리밍 비디오 생성을 가능하게 함을 보여줍니다.
English
Efficient streaming video generation is critical for simulating interactive and dynamic worlds. Existing methods distill few-step video diffusion models with sliding window attention, using initial frames as sink tokens to maintain attention performance and reduce error accumulation. However, video frames become overly dependent on these static tokens, resulting in copied initial frames and diminished motion dynamics. To address this, we introduce Reward Forcing, a novel framework with two key designs. First, we propose EMA-Sink, which maintains fixed-size tokens initialized from initial frames and continuously updated by fusing evicted tokens via exponential moving average as they exit the sliding window. Without additional computation cost, EMA-Sink tokens capture both long-term context and recent dynamics, preventing initial frame copying while maintaining long-horizon consistency. Second, to better distill motion dynamics from teacher models, we propose a novel Rewarded Distribution Matching Distillation (Re-DMD). Vanilla distribution matching treats every training sample equally, limiting the model's ability to prioritize dynamic content. Instead, Re-DMD biases the model's output distribution toward high-reward regions by prioritizing samples with greater dynamics rated by a vision-language model. Re-DMD significantly enhances motion quality while preserving data fidelity. We include both quantitative and qualitative experiments to show that Reward Forcing achieves state-of-the-art performance on standard benchmarks while enabling high-quality streaming video generation at 23.1 FPS on a single H100 GPU.
PDF312December 6, 2025