ChatPaper.aiChatPaper

MotionStream: Geração de Vídeo em Tempo Real com Controles Interativos de Movimento

MotionStream: Real-Time Video Generation with Interactive Motion Controls

November 3, 2025
Autores: Joonghyuk Shin, Zhengqi Li, Richard Zhang, Jun-Yan Zhu, Jaesik Park, Eli Schechtman, Xun Huang
cs.AI

Resumo

Os métodos atuais de geração de vídeo condicionada por movimento sofrem com latência proibitiva (minutos por vídeo) e processamento não causal que impede a interação em tempo real. Apresentamos o MotionStream, que permite latência inferior a um segundo com geração de streaming de até 29 FPS em uma única GPU. Nossa abordagem começa aprimorando um modelo de texto-para-vídeo com controle de movimento, que gera vídeos de alta qualidade que aderem ao prompt de texto global e à orientação de movimento local, mas não realiza inferência sob demanda. Assim, destilamos este professor bidirecional em um aluno causal através do Self Forcing com Destilação por Correspondência de Distribuição, permitindo inferência de streaming em tempo real. Vários desafios cruciais surgem ao gerar vídeos de horizontes temporais longos e potencialmente infinitos: (1) superar a lacuna de domínio entre o treinamento em durações finitas e a extrapolação para horizontes infinitos, (2) sustentar a alta qualidade prevenindo o acúmulo de erros, e (3) manter inferência rápida, sem incorrer em crescimento do custo computacional devido ao aumento de janelas de contexto. Um elemento-chave da nossa abordagem é a introdução de atenção causal com janela deslizante cuidadosamente projetada, combinada com attention sinks. Ao incorporar self-rollout com attention sinks e rolagem do cache KV durante o treinamento, simulamos adequadamente extrapolações no tempo de inferência com uma janela de contexto fixa, permitindo geração em velocidade constante de vídeos arbitrariamente longos. Nossos modelos alcançam resultados state-of-the-art em seguimento de movimento e qualidade de vídeo, sendo duas ordens de magnitude mais rápidos, permitindo exclusivamente streaming de duração infinita. Com o MotionStream, os usuários podem pintar trajetórias, controlar câmeras ou transferir movimento, e ver os resultados se desdobrarem em tempo real, proporcionando uma experiência verdadeiramente interativa.
English
Current motion-conditioned video generation methods suffer from prohibitive latency (minutes per video) and non-causal processing that prevents real-time interaction. We present MotionStream, enabling sub-second latency with up to 29 FPS streaming generation on a single GPU. Our approach begins by augmenting a text-to-video model with motion control, which generates high-quality videos that adhere to the global text prompt and local motion guidance, but does not perform inference on the fly. As such, we distill this bidirectional teacher into a causal student through Self Forcing with Distribution Matching Distillation, enabling real-time streaming inference. Several key challenges arise when generating videos of long, potentially infinite time-horizons: (1) bridging the domain gap from training on finite length and extrapolating to infinite horizons, (2) sustaining high quality by preventing error accumulation, and (3) maintaining fast inference, without incurring growth in computational cost due to increasing context windows. A key to our approach is introducing carefully designed sliding-window causal attention, combined with attention sinks. By incorporating self-rollout with attention sinks and KV cache rolling during training, we properly simulate inference-time extrapolations with a fixed context window, enabling constant-speed generation of arbitrarily long videos. Our models achieve state-of-the-art results in motion following and video quality while being two orders of magnitude faster, uniquely enabling infinite-length streaming. With MotionStream, users can paint trajectories, control cameras, or transfer motion, and see results unfold in real-time, delivering a truly interactive experience.
PDF306February 7, 2026