MotiMotion : Génération de vidéo contrôlée par le mouvement avec raisonnement visuel

Résumé

Les modèles actuels de génération d'images en vidéo contrôlée par le mouvement suivent rigidement des trajectoires fournies par l'utilisateur, souvent éparses, imprécises et causalement incomplètes. Cette dépendance produit fréquemment des résultats non naturels ou invraisemblables, notamment en omettant les conséquences causales secondaires. Pour y remédier, nous présentons MotiMotion, un nouveau cadre qui reformule le contrôle du mouvement comme un problème de raisonnement puis de génération. Afin d'encourager des interactions fondées sur la causalité et cohérentes avec le sens commun, nous exploitons un raisonneur vision-langage sans entraînement pour affiner les coordonnées dans l'espace image des trajectoires primaires et pour halluciner des mouvements secondaires plausibles. Pour améliorer davantage le naturel du mouvement, nous proposons un schéma de contrôle sensible à la confiance qui module la force de guidage, permettant au modèle de suivre étroitement les plans à haute confiance tout en corrigeant les artefacts sous des entrées à faible confiance grâce à ses priorités génératives internes. Pour soutenir une évaluation systématique, nous élaborons un nouveau benchmark d'images en vidéo, MotiBench, composé de scènes centrées sur l'interaction où de nouveaux événements sont déclenchés par le mouvement. L'évaluation basée sur un modèle de vision-langage (VLM) ainsi qu'une étude humaine sur MotiBench montrent que MotiMotion produit des vidéos avec des comportements et interactions d'objets plus plausibles, et est préféré aux approches existantes.

English

Current motion-controlled image-to-video generation models rigidly follow user-provided trajectories that are often sparse, imprecise, and causally incomplete. Such reliance often yields unnatural or implausible outcomes, especially by missing secondary causal consequences. To address this, we introduce MotiMotion, a novel framework that reformulates motion control as a reasoning-then-generation problem. To encourage causally grounded and commonsense-consistent interactions, we leverage a training-free vision-language reasoner to refine image-space coordinates of primary trajectories and to hallucinate plausible secondary motions. To further improve motion naturalness, we propose a confidence-aware control scheme that modulates guidance strength, enabling the model to closely follow high-confidence plans while correcting artifacts under low-confidence inputs with its internal generative priors. To support systematic evaluation, we curate a new image-to-video benchmark, MotiBench, consisting of interaction-centric scenes where new events are triggered by motion. Both VLM-based evaluation and a human study on MotiBench demonstrate that MotiMotion produces videos with more plausible object behaviors and interaction, and is preferred over existing approaches.