MotiMotion: Generación de Video Controlada por Movimiento con Razonamiento Visual

Resumen

Los modelos actuales de generación de imagen a video controlados por movimiento siguen rígidamente las trayectorias proporcionadas por el usuario, que a menudo son dispersas, imprecisas y causalmente incompletas. Esta dependencia frecuentemente produce resultados poco naturales o inverosímiles, especialmente al omitir consecuencias causales secundarias. Para abordar esto, presentamos MotiMotion, un marco novedoso que reformula el control de movimiento como un problema de razonamiento seguido de generación. Para fomentar interacciones causalmente fundamentadas y coherentes con el sentido común, aprovechamos un razonador de lenguaje visual libre de entrenamiento para refinar las coordenadas en el espacio de imagen de las trayectorias primarias y alucinar movimientos secundarios plausibles. Para mejorar aún más la naturalidad del movimiento, proponemos un esquema de control consciente de la confianza que modula la fuerza de guía, permitiendo que el modelo siga de cerca planes de alta confianza mientras corrige artefactos en entradas de baja confianza utilizando sus priors generativos internos. Para respaldar una evaluación sistemática, curamos un nuevo punto de referencia de imagen a video, MotiBench, que consiste en escenas centradas en interacciones donde nuevos eventos son desencadenados por el movimiento. Tanto la evaluación basada en VLM como un estudio humano en MotiBench demuestran que MotiMotion produce videos con comportamientos e interacciones de objetos más plausibles, y es preferido frente a los enfoques existentes.

English

Current motion-controlled image-to-video generation models rigidly follow user-provided trajectories that are often sparse, imprecise, and causally incomplete. Such reliance often yields unnatural or implausible outcomes, especially by missing secondary causal consequences. To address this, we introduce MotiMotion, a novel framework that reformulates motion control as a reasoning-then-generation problem. To encourage causally grounded and commonsense-consistent interactions, we leverage a training-free vision-language reasoner to refine image-space coordinates of primary trajectories and to hallucinate plausible secondary motions. To further improve motion naturalness, we propose a confidence-aware control scheme that modulates guidance strength, enabling the model to closely follow high-confidence plans while correcting artifacts under low-confidence inputs with its internal generative priors. To support systematic evaluation, we curate a new image-to-video benchmark, MotiBench, consisting of interaction-centric scenes where new events are triggered by motion. Both VLM-based evaluation and a human study on MotiBench demonstrate that MotiMotion produces videos with more plausible object behaviors and interaction, and is preferred over existing approaches.