MotionStream: Generazione Video in Tempo Reale con Controlli Interattivi del Movimento

Abstract

Gli attuali metodi di generazione video condizionata dal movimento soffrono di una latenza proibitiva (minuti per video) e di un'elaborazione non causale che impedisce l'interazione in tempo reale. Presentiamo MotionStream, che consente una latenza inferiore al secondo con generazione in streaming fino a 29 FPS su una singola GPU. Il nostro approccio inizia potenziando un modello text-to-video con controllo del movimento, che genera video di alta qualità aderenti al prompt testuale globale e alla guida motoria locale, ma non esegue inferenza on-the-fly. Pertanto, distilliamo questo insegnante bidirezionale in uno studente causale tramite Self Forcing con Distribution Matching Distillation, abilitando l'inferenza in streaming in tempo reale. Diverse sfide chiave emergono nella generazione di video con orizzonti temporali lunghi, potenzialmente infiniti: (1) colmare il divario di dominio dall'addestramento su lunghezze finite all'estrapolazione su orizzonti infiniti, (2) sostenere l'alta qualità prevenendo l'accumulo di errori e (3) mantenere un'inferenza veloce, senza incorrere in costi computazionali crescenti dovuti a finestre di contesto sempre più ampie. Un elemento chiave del nostro approccio è l'introduzione di un'attenzione causale a finestra scorrevole accuratamente progettata, combinata con attention sinks. Incorporando self-rollout con attention sinks e KV cache rolling durante l'addestramento, simuliamo correttamente le estrapolazioni al momento dell'inferenza con una finestra di contesto fissa, consentendo una generazione a velocità costante di video di lunghezza arbitraria. I nostri modelli raggiungono risultati all'avanguardia nel seguire il movimento e nella qualità video, essendo due ordini di grandezza più veloci e abilitando unicamente lo streaming a lunghezza infinita. Con MotionStream, gli utenti possono disegnare traiettorie, controllare telecamere o trasferire movimento, e vedere i risultati svolgersi in tempo reale, offrendo un'esperienza veramente interattiva.

English

Current motion-conditioned video generation methods suffer from prohibitive latency (minutes per video) and non-causal processing that prevents real-time interaction. We present MotionStream, enabling sub-second latency with up to 29 FPS streaming generation on a single GPU. Our approach begins by augmenting a text-to-video model with motion control, which generates high-quality videos that adhere to the global text prompt and local motion guidance, but does not perform inference on the fly. As such, we distill this bidirectional teacher into a causal student through Self Forcing with Distribution Matching Distillation, enabling real-time streaming inference. Several key challenges arise when generating videos of long, potentially infinite time-horizons: (1) bridging the domain gap from training on finite length and extrapolating to infinite horizons, (2) sustaining high quality by preventing error accumulation, and (3) maintaining fast inference, without incurring growth in computational cost due to increasing context windows. A key to our approach is introducing carefully designed sliding-window causal attention, combined with attention sinks. By incorporating self-rollout with attention sinks and KV cache rolling during training, we properly simulate inference-time extrapolations with a fixed context window, enabling constant-speed generation of arbitrarily long videos. Our models achieve state-of-the-art results in motion following and video quality while being two orders of magnitude faster, uniquely enabling infinite-length streaming. With MotionStream, users can paint trajectories, control cameras, or transfer motion, and see results unfold in real-time, delivering a truly interactive experience.

MotionStream: Generazione Video in Tempo Reale con Controlli Interattivi del Movimento

MotionStream: Real-Time Video Generation with Interactive Motion Controls

Abstract

Support