MotiMotion: Geração de Vídeo Controlada por Movimento com Raciocínio Visual

Resumo

Os atuais modelos de geração de imagem-para-vídeo controlados por movimento seguem rigidamente trajetórias fornecidas pelo usuário, que muitas vezes são esparsas, imprecisas e causalmente incompletas. Essa dependência frequentemente produz resultados não naturais ou implausíveis, especialmente ao omitir consequências causais secundárias. Para lidar com isso, apresentamos o MotiMotion, uma nova estrutura que reformula o controle de movimento como um problema de raciocínio-seguido-de-geração. Para promover interações causalmente fundamentadas e consistentes com o senso comum, utilizamos um raciocinador de visão-linguagem livre de treinamento para refinar coordenadas de espaço de imagem de trajetórias primárias e alucinar movimentos secundários plausíveis. Para melhorar ainda mais a naturalidade do movimento, propomos um esquema de controle consciente de confiança que modula a intensidade da orientação, permitindo que o modelo siga rigorosamente planos de alta confiança enquanto corrige artefatos sob entradas de baixa confiança com seus próprios priores generativos internos. Para apoiar uma avaliação sistemática, criamos um novo benchmark de imagem-para-vídeo, o MotiBench, composto por cenas centradas em interação onde novos eventos são acionados pelo movimento. Tanto a avaliação baseada em VLM quanto um estudo humano no MotiBench demonstram que o MotiMotion produz vídeos com comportamentos e interações de objetos mais plausíveis, sendo preferido em relação às abordagens existentes.

English

Current motion-controlled image-to-video generation models rigidly follow user-provided trajectories that are often sparse, imprecise, and causally incomplete. Such reliance often yields unnatural or implausible outcomes, especially by missing secondary causal consequences. To address this, we introduce MotiMotion, a novel framework that reformulates motion control as a reasoning-then-generation problem. To encourage causally grounded and commonsense-consistent interactions, we leverage a training-free vision-language reasoner to refine image-space coordinates of primary trajectories and to hallucinate plausible secondary motions. To further improve motion naturalness, we propose a confidence-aware control scheme that modulates guidance strength, enabling the model to closely follow high-confidence plans while correcting artifacts under low-confidence inputs with its internal generative priors. To support systematic evaluation, we curate a new image-to-video benchmark, MotiBench, consisting of interaction-centric scenes where new events are triggered by motion. Both VLM-based evaluation and a human study on MotiBench demonstrate that MotiMotion produces videos with more plausible object behaviors and interaction, and is preferred over existing approaches.