MotionStream: Generazione Video in Tempo Reale con Controlli Interattivi del Movimento
MotionStream: Real-Time Video Generation with Interactive Motion Controls
November 3, 2025
Autori: Joonghyuk Shin, Zhengqi Li, Richard Zhang, Jun-Yan Zhu, Jaesik Park, Eli Schechtman, Xun Huang
cs.AI
Abstract
Gli attuali metodi di generazione video condizionata dal movimento soffrono di una latenza proibitiva (minuti per video) e di un'elaborazione non causale che impedisce l'interazione in tempo reale. Presentiamo MotionStream, che consente una latenza inferiore al secondo con generazione in streaming fino a 29 FPS su una singola GPU. Il nostro approccio inizia potenziando un modello text-to-video con controllo del movimento, che genera video di alta qualità aderenti al prompt testuale globale e alla guida motoria locale, ma non esegue inferenza on-the-fly. Pertanto, distilliamo questo insegnante bidirezionale in uno studente causale tramite Self Forcing con Distribution Matching Distillation, abilitando l'inferenza in streaming in tempo reale. Diverse sfide chiave emergono nella generazione di video con orizzonti temporali lunghi, potenzialmente infiniti: (1) colmare il divario di dominio dall'addestramento su lunghezze finite all'estrapolazione su orizzonti infiniti, (2) sostenere l'alta qualità prevenendo l'accumulo di errori e (3) mantenere un'inferenza veloce, senza incorrere in costi computazionali crescenti dovuti a finestre di contesto sempre più ampie. Un elemento chiave del nostro approccio è l'introduzione di un'attenzione causale a finestra scorrevole accuratamente progettata, combinata con attention sinks. Incorporando self-rollout con attention sinks e KV cache rolling durante l'addestramento, simuliamo correttamente le estrapolazioni al momento dell'inferenza con una finestra di contesto fissa, consentendo una generazione a velocità costante di video di lunghezza arbitraria. I nostri modelli raggiungono risultati all'avanguardia nel seguire il movimento e nella qualità video, essendo due ordini di grandezza più veloci e abilitando unicamente lo streaming a lunghezza infinita. Con MotionStream, gli utenti possono disegnare traiettorie, controllare telecamere o trasferire movimento, e vedere i risultati svolgersi in tempo reale, offrendo un'esperienza veramente interattiva.
English
Current motion-conditioned video generation methods suffer from prohibitive
latency (minutes per video) and non-causal processing that prevents real-time
interaction. We present MotionStream, enabling sub-second latency with up to 29
FPS streaming generation on a single GPU. Our approach begins by augmenting a
text-to-video model with motion control, which generates high-quality videos
that adhere to the global text prompt and local motion guidance, but does not
perform inference on the fly. As such, we distill this bidirectional teacher
into a causal student through Self Forcing with Distribution Matching
Distillation, enabling real-time streaming inference. Several key challenges
arise when generating videos of long, potentially infinite time-horizons: (1)
bridging the domain gap from training on finite length and extrapolating to
infinite horizons, (2) sustaining high quality by preventing error
accumulation, and (3) maintaining fast inference, without incurring growth in
computational cost due to increasing context windows. A key to our approach is
introducing carefully designed sliding-window causal attention, combined with
attention sinks. By incorporating self-rollout with attention sinks and KV
cache rolling during training, we properly simulate inference-time
extrapolations with a fixed context window, enabling constant-speed generation
of arbitrarily long videos. Our models achieve state-of-the-art results in
motion following and video quality while being two orders of magnitude faster,
uniquely enabling infinite-length streaming. With MotionStream, users can paint
trajectories, control cameras, or transfer motion, and see results unfold in
real-time, delivering a truly interactive experience.