MotionPro: Точный контроллер движения для генерации видео из изображений
MotionPro: A Precise Motion Controller for Image-to-Video Generation
May 26, 2025
Авторы: Zhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei
cs.AI
Аннотация
Анимация изображений с интерактивным управлением движением приобрела популярность в задаче генерации видео из изображений (image-to-video, I2V). Современные подходы обычно полагаются на большие гауссовы ядра для расширения траекторий движения в качестве условия, не определяя явно область перемещения, что приводит к грубому управлению движением и не позволяет разделить движение объекта и камеры. Чтобы устранить эти проблемы, мы представляем MotionPro — точный контроллер движения, который инновационно использует траектории по областям и маску движения для регулирования синтеза детализированного движения и идентификации целевой категории движения (т.е., движение объекта или камеры) соответственно. Технически, MotionPro сначала оценивает карты потоков для каждого обучающего видео с помощью модели отслеживания, а затем выбирает траектории по областям для моделирования сценария вывода. Вместо расширения потоков через большие гауссовы ядра, наш подход с траекториями по областям обеспечивает более точное управление, напрямую используя траектории в локальных областях, тем самым эффективно характеризуя детализированные движения. Одновременно из предсказанных карт потоков выводится маска движения для захвата целостной динамики движения в областях. Для достижения естественного управления движением, MotionPro дополнительно усиливает шумоподавление видео, интегрируя как траектории по областям, так и маску движения через модуляцию признаков. Более того, мы тщательно создали бенчмарк, а именно MC-Bench, содержащий 1.1 тыс. пар изображение-траектория с аннотациями пользователей, для оценки как детализированного, так и объектно-ориентированного управления движением в I2V. Многочисленные эксперименты, проведенные на наборах данных WebVid-10M и MC-Bench, демонстрируют эффективность MotionPro. Дополнительные результаты доступны на странице проекта: https://zhw-zhang.github.io/MotionPro-page/.
English
Animating images with interactive motion control has garnered popularity for
image-to-video (I2V) generation. Modern approaches typically rely on large
Gaussian kernels to extend motion trajectories as condition without explicitly
defining movement region, leading to coarse motion control and failing to
disentangle object and camera moving. To alleviate these, we present MotionPro,
a precise motion controller that novelly leverages region-wise trajectory and
motion mask to regulate fine-grained motion synthesis and identify target
motion category (i.e., object or camera moving), respectively. Technically,
MotionPro first estimates the flow maps on each training video via a tracking
model, and then samples the region-wise trajectories to simulate inference
scenario. Instead of extending flow through large Gaussian kernels, our
region-wise trajectory approach enables more precise control by directly
utilizing trajectories within local regions, thereby effectively characterizing
fine-grained movements. A motion mask is simultaneously derived from the
predicted flow maps to capture the holistic motion dynamics of the movement
regions. To pursue natural motion control, MotionPro further strengthens video
denoising by incorporating both region-wise trajectories and motion mask
through feature modulation. More remarkably, we meticulously construct a
benchmark, i.e., MC-Bench, with 1.1K user-annotated image-trajectory pairs, for
the evaluation of both fine-grained and object-level I2V motion control.
Extensive experiments conducted on WebVid-10M and MC-Bench demonstrate the
effectiveness of MotionPro. Please refer to our project page for more results:
https://zhw-zhang.github.io/MotionPro-page/.Summary
AI-Generated Summary