ChatPaper.aiChatPaper

자기 강제(Self Forcing): 자기회귀 비디오 확산 모델의 학습-테스트 간극 해소

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

June 9, 2025
저자: Xun Huang, Zhengqi Li, Guande He, Mingyuan Zhou, Eli Shechtman
cs.AI

초록

우리는 자기회귀 비디오 확산 모델을 위한 새로운 훈련 패러다임인 Self Forcing을 소개합니다. 이 방법은 모델이 훈련 시에는 실제 컨텍스트를 기반으로 학습하지만, 추론 시에는 자신의 불완전한 출력을 조건으로 시퀀스를 생성해야 하는 노출 편향(exposure bias) 문제를 해결합니다. 기존 방법들이 실제 컨텍스트 프레임을 기반으로 미래 프레임을 노이즈 제거하는 것과 달리, Self Forcing은 훈련 중 키-값(KV) 캐싱을 통해 자기회귀 롤아웃을 수행함으로써 각 프레임의 생성을 이전에 자체 생성된 출력에 조건화합니다. 이 전략은 전통적인 프레임 단위 목적 함수에만 의존하는 대신, 생성된 전체 시퀀스의 품질을 직접 평가하는 비디오 수준의 종합적 손실을 통해 지도 학습을 가능하게 합니다. 훈련 효율성을 보장하기 위해, 우리는 몇 단계의 확산 모델과 확률적 그래디언트 절단 전략을 사용하여 계산 비용과 성능 간의 균형을 효과적으로 유지합니다. 또한, 효율적인 자기회귀 비디오 외삽을 가능하게 하는 롤링 KV 캐시 메커니즘을 도입합니다. 광범위한 실험을 통해 우리의 접근 방식이 단일 GPU에서 초당 미만의 지연 시간으로 실시간 스트리밍 비디오 생성을 달성하면서, 훨씬 느리고 비인과적인 확산 모델의 생성 품질을 맞추거나 심지어 능가함을 입증했습니다. 프로젝트 웹사이트: http://self-forcing.github.io/
English
We introduce Self Forcing, a novel training paradigm for autoregressive video diffusion models. It addresses the longstanding issue of exposure bias, where models trained on ground-truth context must generate sequences conditioned on their own imperfect outputs during inference. Unlike prior methods that denoise future frames based on ground-truth context frames, Self Forcing conditions each frame's generation on previously self-generated outputs by performing autoregressive rollout with key-value (KV) caching during training. This strategy enables supervision through a holistic loss at the video level that directly evaluates the quality of the entire generated sequence, rather than relying solely on traditional frame-wise objectives. To ensure training efficiency, we employ a few-step diffusion model along with a stochastic gradient truncation strategy, effectively balancing computational cost and performance. We further introduce a rolling KV cache mechanism that enables efficient autoregressive video extrapolation. Extensive experiments demonstrate that our approach achieves real-time streaming video generation with sub-second latency on a single GPU, while matching or even surpassing the generation quality of significantly slower and non-causal diffusion models. Project website: http://self-forcing.github.io/
PDF162June 11, 2025