MotionStream: 인터랙티브 모션 컨트롤을 통한 실시간 비디오 생성
MotionStream: Real-Time Video Generation with Interactive Motion Controls
November 3, 2025
저자: Joonghyuk Shin, Zhengqi Li, Richard Zhang, Jun-Yan Zhu, Jaesik Park, Eli Schechtman, Xun Huang
cs.AI
초록
현재의 동작 조건 기반 비디오 생성 방법은 실시간 상호작용을 방해하는 높은 지연 시간(비디오 당 수 분)과 비인과적 처리 문제를 겪고 있습니다. 우리는 단일 GPU에서 최대 29 FPS의 스트리밍 생성과 함께 1초 미만의 지연 시간을 가능하게 하는 MotionStream을 제시합니다. 우리의 접근 방식은 먼저 동작 제어를 통해 텍스트-비디오 모델을 증강시켜 전역 텍스트 프롬프트와 지역 동작 안내를 따르는 고품질 비디오를 생성하지만, 온더플라이 추론은 수행하지 않는 것으로 시작합니다. 이를 위해 우리는 Self Forcing with Distribution Matching Distillation을 통해 이 양방향 교사 모델을 인과적 학생 모델로 지식 증류하여 실시간 스트리밍 추론을 가능하게 합니다. 길거나 무한한 시간 범위의 비디오를 생성할 때 몇 가지 주요 과제가 발생합니다: (1) 유한 길이 훈련과 무한 범위 외삽 간의 도메인 간극 해결, (2) 오류 누적 방지를 통한 고품질 유지, (3) 증가하는 컨텍스트 윈도우로 인한 계산 비용 증가 없이 빠른 추론 속도 유지. 우리 접근법의 핵심은 신중하게 설계된 슬라이딩-윈도우 인과적 어텐션과 어텐션 싱크를 결합하는 것입니다. 훈련 중 어텐션 싱크와 KV 캐시 롤링을 통한 자가 롤아웃을 도입하여 고정된 컨텍스트 윈도우로 추론 시간 외삽을 적절히 시뮬레이션함으로써 임의의 길이를 가진 비디오의 일정 속도 생성을 가능하게 합니다. 우리 모델은 동작 추종과 비디오 품질에서 최첨단 결과를 달성하면서도 생성 속도는 두 배 수준으로 빠르며, 무한 길이 스트리밍을 유일하게 가능하게 합니다. MotionStream을 통해 사용자는 궤적을 그리거나, 카메라를 제어하거나, 동작을 전송하고 그 결과가 실시간으로 펼쳐지는 것을 볼 수 있어 진정한 상호작용 경험을 제공합니다.
English
Current motion-conditioned video generation methods suffer from prohibitive
latency (minutes per video) and non-causal processing that prevents real-time
interaction. We present MotionStream, enabling sub-second latency with up to 29
FPS streaming generation on a single GPU. Our approach begins by augmenting a
text-to-video model with motion control, which generates high-quality videos
that adhere to the global text prompt and local motion guidance, but does not
perform inference on the fly. As such, we distill this bidirectional teacher
into a causal student through Self Forcing with Distribution Matching
Distillation, enabling real-time streaming inference. Several key challenges
arise when generating videos of long, potentially infinite time-horizons: (1)
bridging the domain gap from training on finite length and extrapolating to
infinite horizons, (2) sustaining high quality by preventing error
accumulation, and (3) maintaining fast inference, without incurring growth in
computational cost due to increasing context windows. A key to our approach is
introducing carefully designed sliding-window causal attention, combined with
attention sinks. By incorporating self-rollout with attention sinks and KV
cache rolling during training, we properly simulate inference-time
extrapolations with a fixed context window, enabling constant-speed generation
of arbitrarily long videos. Our models achieve state-of-the-art results in
motion following and video quality while being two orders of magnitude faster,
uniquely enabling infinite-length streaming. With MotionStream, users can paint
trajectories, control cameras, or transfer motion, and see results unfold in
real-time, delivering a truly interactive experience.