ChatPaper.aiChatPaper

MotionStream : Génération vidéo en temps réel avec contrôles de mouvement interactifs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

November 3, 2025
papers.authors: Joonghyuk Shin, Zhengqi Li, Richard Zhang, Jun-Yan Zhu, Jaesik Park, Eli Schechtman, Xun Huang
cs.AI

papers.abstract

Les méthodes actuelles de génération vidéo conditionnée par le mouvement souffrent d'une latence prohibitive (plusieurs minutes par vidéo) et d'un traitement non causal qui empêche une interaction en temps réel. Nous présentons MotionStream, permettant une latence inférieure à la seconde avec une génération en flux jusqu'à 29 IPS sur un seul GPU. Notre approche commence par enrichir un modèle texte-à-vidéo avec un contrôle motion, qui génère des vidéos de haute qualité conformes au prompt texte global et au guidage motion local, mais sans effectuer d'inférence à la volée. Ainsi, nous distillons cet enseignant bidirectionnel en un étudiant causal via l'auto-forçage avec distillation par appariement de distributions, permettant une inférence en flux temps réel. Plusieurs défis majeurs surviennent lors de la génération de vidéos sur des horizons temporels longs, potentiellement infinis : (1) combler l'écart domaine entre l'entraînement sur des séquences finies et l'extrapolation à des horizons infinis, (2) maintenir une haute qualité en empêchant l'accumulation d'erreurs, et (3) conserver une inférence rapide sans augmentation des coûts computationnels dus à la croissance des fenêtres de contexte. Un élément clé de notre approche est l'introduction d'une attention causale glissante soigneusement conçue, combinée à des puits d'attention. En incorporant l'auto-déroulement avec puits d'attention et le roulement du cache KV pendant l'entraînement, nous simulons correctement les extrapolations en inférence avec une fenêtre de contexte fixe, permettant une génération à vitesse constante de vidéos de longueur arbitraire. Nos modèles obtiennent des résultats state-of-the-art en suivi motion et qualité vidéo tout en étant deux ordres de grandeur plus rapides, permettant uniquement un streaming de longueur infinie. Avec MotionStream, les utilisateurs peuvent peindre des trajectoires, contrôler des caméras ou transférer du mouvement, et voir les résultats se dérouler en temps réel, offrant une expérience véritablement interactive.
English
Current motion-conditioned video generation methods suffer from prohibitive latency (minutes per video) and non-causal processing that prevents real-time interaction. We present MotionStream, enabling sub-second latency with up to 29 FPS streaming generation on a single GPU. Our approach begins by augmenting a text-to-video model with motion control, which generates high-quality videos that adhere to the global text prompt and local motion guidance, but does not perform inference on the fly. As such, we distill this bidirectional teacher into a causal student through Self Forcing with Distribution Matching Distillation, enabling real-time streaming inference. Several key challenges arise when generating videos of long, potentially infinite time-horizons: (1) bridging the domain gap from training on finite length and extrapolating to infinite horizons, (2) sustaining high quality by preventing error accumulation, and (3) maintaining fast inference, without incurring growth in computational cost due to increasing context windows. A key to our approach is introducing carefully designed sliding-window causal attention, combined with attention sinks. By incorporating self-rollout with attention sinks and KV cache rolling during training, we properly simulate inference-time extrapolations with a fixed context window, enabling constant-speed generation of arbitrarily long videos. Our models achieve state-of-the-art results in motion following and video quality while being two orders of magnitude faster, uniquely enabling infinite-length streaming. With MotionStream, users can paint trajectories, control cameras, or transfer motion, and see results unfold in real-time, delivering a truly interactive experience.
PDF296January 19, 2026