RAVEN: 일관성 모델 GRPO를 활용한 실시간 자기회귀 비디오 외삽
RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO
May 14, 2026
저자: Yanzuo Lu, Ronglai Zuo, Jiankang Deng
cs.AI
초록
인과적 자기회귀 비디오 확산 모델은 이전에 생성된 콘텐츠로부터 미래 청크를 외삽하여 실시간 스트리밍 생성을 지원한다. 이러한 생성기를 고충실도 양방향 교사 모델로부터 증류하면 경쟁력 있는 소수 단계 모델이 얻어지지만, 훈련 중에 접하는 과거 분포와 추론 시 발생하는 분포 간의 지속적인 격차로 인해 긴 시간 범위에 걸친 생성 품질이 제한된다. 본 논문에서는 실시간 자기회귀 비디오 외삽 네트워크(RAVEN)를 소개한다. 이는 훈련 시간 테스트 프레임워크로, 각 자체 롤아웃을 깨끗한 과거 종단점과 잡음이 있는 노이즈 제거 상태의 인터리브된 시퀀스로 재구성한다. 이러한 공식은 훈련 주의를 추론 시간 외삽과 정렬시키며, 하위 청크 손실이 미래 예측이 의존하는 과거 표현을 지도할 수 있게 한다. 또한, 일관성 모델 그룹 상대 정책 최적화(CM-GRPO)를 제안한다. 이는 일관성 샘플링 단계를 조건부 가우시안 전이로 재구성하고, 이 커널에 직접 온라인 강화 학습(RL)을 적용함으로써 기존 흐름 모델 RL 공식에서 채택된 오일러-마루야마 보조 과정을 피한다. 실험 결과, RAVEN이 최근 인과적 비디오 증류 기준선을 품질, 의미론적, 동적 정도 평가에서 능가하며, CM-GRPO가 RAVEN과 결합될 때 추가적인 성능 향상을 제공함을 보여준다.
English
Causal autoregressive video diffusion models support real-time streaming generation by extrapolating future chunks from previously generated content. Distilling such generators from high-fidelity bidirectional teachers yields competitive few-step models, yet a persistent gap between the history distributions encountered during training and those arising at inference constrains generation quality over long horizons. We introduce the Real-time Autoregressive Video Extrapolation Network (RAVEN), a training-time test framework that repacks each self rollout into an interleaved sequence of clean historical endpoints and noisy denoising states. This formulation aligns training attention with inference-time extrapolation and allows downstream chunk losses to supervise the history representations on which future predictions depend. We further propose Consistency-model Group Relative Policy Optimization (CM-GRPO), which reformulates a consistency sampling step as a conditional Gaussian transition and applies online Reinforcement Learning (RL) directly to this kernel, avoiding the Euler-Maruyama auxiliary process adopted in prior flow-model RL formulations. Experiments demonstrate that RAVEN surpasses recent causal video distillation baselines across quality, semantic, and dynamic degree evaluations, and that CM-GRPO provides further gains when combined with RAVEN.