MotiMotion: Bewegungsgesteuerte Videogenerierung mit visuellem Reasoning

Zusammenfassung

Aktuelle bewegungsgesteuerte Bild-zu-Video-Generierungsmodelle folgen strikt benutzerdefinierten Trajektorien, die oft spärlich, ungenau und kausal unvollständig sind. Eine solche Abhängigkeit führt häufig zu unnatürlichen oder unplausiblen Ergebnissen, insbesondere durch das Fehlen sekundärer kausaler Konsequenzen. Um dieses Problem anzugehen, stellen wir MotiMotion vor, ein neuartiges Framework, das Bewegungskontrolle als ein Schlussfolgerungs-dann-Generierungs-Problem umformuliert. Um kausal fundierte und mit gesundem Menschenverstand konsistente Interaktionen zu fördern, nutzen wir einen trainingsfreien visuell-sprachlichen Reasoner, um Bildraumkoordinaten primärer Trajektorien zu verfeinern und plausible sekundäre Bewegungen zu halluzinieren. Zur weiteren Verbesserung der Bewegungsnatürlichkeit schlagen wir ein konfidenzbewusstes Kontrollschema vor, das die Führungsstärke moduliert und es dem Modell ermöglicht, hochkonfidenten Plänen genau zu folgen, während es Artefakte bei niedrigkonfidenten Eingaben mithilfe seiner internen generativen Priors korrigiert. Zur Unterstützung einer systematischen Evaluierung kuratieren wir einen neuen Bild-zu-Video-Benchmark, MotiBench, der aus interaktionszentrierten Szenen besteht, in denen neue Ereignisse durch Bewegung ausgelöst werden. Sowohl die VLM-basierte Evaluierung als auch eine Menschenstudie auf MotiBench zeigen, dass MotiMotion Videos mit plausiblerem Objektverhalten und -interaktion erzeugt und gegenüber bestehenden Ansätzen bevorzugt wird.

English

Current motion-controlled image-to-video generation models rigidly follow user-provided trajectories that are often sparse, imprecise, and causally incomplete. Such reliance often yields unnatural or implausible outcomes, especially by missing secondary causal consequences. To address this, we introduce MotiMotion, a novel framework that reformulates motion control as a reasoning-then-generation problem. To encourage causally grounded and commonsense-consistent interactions, we leverage a training-free vision-language reasoner to refine image-space coordinates of primary trajectories and to hallucinate plausible secondary motions. To further improve motion naturalness, we propose a confidence-aware control scheme that modulates guidance strength, enabling the model to closely follow high-confidence plans while correcting artifacts under low-confidence inputs with its internal generative priors. To support systematic evaluation, we curate a new image-to-video benchmark, MotiBench, consisting of interaction-centric scenes where new events are triggered by motion. Both VLM-based evaluation and a human study on MotiBench demonstrate that MotiMotion produces videos with more plausible object behaviors and interaction, and is preferred over existing approaches.