MotiMotion: Управляемая движением генерация видео с визуальным рассуждением

Аннотация

Современные модели генерации видео из изображений, управляемые движением, жестко следуют предоставленным пользователем траекториям, которые часто являются разреженными, неточными и причинно неполными. Такая зависимость часто приводит к неестественным или неправдоподобным результатам, особенно из-за упущения вторичных причинных последствий. Для решения этой проблемы мы представляем MotiMotion — новую структуру, которая переформулирует управление движением как задачу рассуждения с последующей генерацией. Чтобы стимулировать причинно обоснованные и соответствующие здравому смыслу взаимодействия, мы используем не требующий обучения визуально-языковой рассуждатель для уточнения координат первичных траекторий в пространстве изображения и для галлюцинирования правдоподобных вторичных движений. Для дальнейшего улучшения естественности движений мы предлагаем схему управления, учитывающую уверенность, которая модулирует силу направляющего воздействия, позволяя модели точно следовать планам с высокой уверенностью, при этом исправляя артефакты при входах с низкой уверенностью с помощью своих внутренних генеративных априорных данных. Для поддержки систематической оценки мы создаем новый бенчмарк генерации видео из изображений, MotiBench, состоящий из сцен, ориентированных на взаимодействие, где новые события инициируются движением. Как оценка на основе VLM, так и исследование с участием людей на MotiBench показывают, что MotiMotion создает видео с более правдоподобным поведением объектов и взаимодействием, и предпочитается по сравнению с существующими подходами.

English

Current motion-controlled image-to-video generation models rigidly follow user-provided trajectories that are often sparse, imprecise, and causally incomplete. Such reliance often yields unnatural or implausible outcomes, especially by missing secondary causal consequences. To address this, we introduce MotiMotion, a novel framework that reformulates motion control as a reasoning-then-generation problem. To encourage causally grounded and commonsense-consistent interactions, we leverage a training-free vision-language reasoner to refine image-space coordinates of primary trajectories and to hallucinate plausible secondary motions. To further improve motion naturalness, we propose a confidence-aware control scheme that modulates guidance strength, enabling the model to closely follow high-confidence plans while correcting artifacts under low-confidence inputs with its internal generative priors. To support systematic evaluation, we curate a new image-to-video benchmark, MotiBench, consisting of interaction-centric scenes where new events are triggered by motion. Both VLM-based evaluation and a human study on MotiBench demonstrate that MotiMotion produces videos with more plausible object behaviors and interaction, and is preferred over existing approaches.