MotiMotion: Bewegingsgestuurde Videogeneratie met Visueel Redeneren

Samenvatting

Huidige bewegingsgestuurde beeld-naar-video generatiemodellen volgen rigide door gebruikers verstrekte trajecten die vaak schaars, onnauwkeurig en causaal onvolledig zijn. Een dergelijke afhankelijkheid leidt vaak tot onnatuurlijke of onwaarschijnlijke uitkomsten, vooral door het missen van secundaire causale gevolgen. Om dit aan te pakken introduceren we MotiMotion, een nieuw raamwerk dat bewegingscontrole herformuleert als een redeneren-dan-genereren probleem. Om causaal onderbouwde en met gezond verstand overeenkomende interacties te stimuleren, gebruiken we een trainingsvrije visie-taal redeneerder om beeldruimtecoördinaten van primaire trajecten te verfijnen en plausibele secundaire bewegingen te hallucineren. Om de natuurlijkheid van beweging verder te verbeteren, stellen we een vertrouwensbewust regelschema voor dat de sturingssterkte moduleert, waardoor het model plannen met hoge betrouwbaarheid nauwkeurig kan volgen terwijl het artefacten corrigeert bij invoer met lage betrouwbaarheid met behulp van zijn interne generatieve prioriteiten. Ter ondersteuning van systematische evaluatie stellen we een nieuwe beeld-naar-video benchmark samen, MotiBench, bestaande uit interactiegerichte scènes waarin nieuwe gebeurtenissen door beweging worden veroorzaakt. Zowel VLM-gebaseerde evaluatie als een menselijke studie op MotiBench tonen aan dat MotiMotion video's produceert met meer plausibel objectgedrag en interactie, en de voorkeur krijgt boven bestaande benaderingen.

English

Current motion-controlled image-to-video generation models rigidly follow user-provided trajectories that are often sparse, imprecise, and causally incomplete. Such reliance often yields unnatural or implausible outcomes, especially by missing secondary causal consequences. To address this, we introduce MotiMotion, a novel framework that reformulates motion control as a reasoning-then-generation problem. To encourage causally grounded and commonsense-consistent interactions, we leverage a training-free vision-language reasoner to refine image-space coordinates of primary trajectories and to hallucinate plausible secondary motions. To further improve motion naturalness, we propose a confidence-aware control scheme that modulates guidance strength, enabling the model to closely follow high-confidence plans while correcting artifacts under low-confidence inputs with its internal generative priors. To support systematic evaluation, we curate a new image-to-video benchmark, MotiBench, consisting of interaction-centric scenes where new events are triggered by motion. Both VLM-based evaluation and a human study on MotiBench demonstrate that MotiMotion produces videos with more plausible object behaviors and interaction, and is preferred over existing approaches.