ChatPaper.aiChatPaper

MotionPro: 이미지-비디오 생성을 위한 정밀 모션 컨트롤러

MotionPro: A Precise Motion Controller for Image-to-Video Generation

May 26, 2025
저자: Zhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei
cs.AI

초록

이미지-투-비디오(I2V) 생성에서 인터랙티브 모션 제어를 통해 이미지를 애니메이션화하는 기술이 인기를 끌고 있다. 최근의 접근법들은 일반적으로 큰 가우시안 커널을 사용하여 모션 궤적을 조건으로 확장하지만, 이동 영역을 명시적으로 정의하지 않아 거친 모션 제어를 초래하며 객체와 카메라의 움직임을 분리하지 못한다. 이를 해결하기 위해, 우리는 정밀한 모션 제어기인 MotionPro를 제안한다. MotionPro는 지역별 궤적과 모션 마스크를 활용하여 세밀한 모션 합성을 조절하고, 대상 모션 카테고리(즉, 객체 또는 카메라 이동)를 각각 식별한다. 기술적으로, MotionPro는 먼저 추적 모델을 통해 각 학습 비디오의 플로우 맵을 추정한 후, 지역별 궤적을 샘플링하여 추론 시나리오를 시뮬레이션한다. 큰 가우시안 커널을 통해 플로우를 확장하는 대신, 우리의 지역별 궤적 접근법은 지역 내 궤적을 직접 활용하여 더 정밀한 제어를 가능하게 하여 세밀한 움직임을 효과적으로 특성화한다. 동시에, 예측된 플로우 맵에서 모션 마스크를 도출하여 이동 영역의 전체적인 모션 역학을 포착한다. 자연스러운 모션 제어를 위해, MotionPro는 지역별 궤적과 모션 마스크를 특징 변조를 통해 통합하여 비디오 노이즈 제거를 더욱 강화한다. 더욱 주목할 만한 점은, 우리는 세밀한 및 객체 수준의 I2V 모션 제어 평가를 위해 1.1K개의 사용자 주석이 달린 이미지-궤적 쌍으로 구성된 벤치마크인 MC-Bench를 세심하게 구축했다. WebVid-10M과 MC-Bench에서 수행된 광범위한 실험은 MotionPro의 효과를 입증한다. 더 많은 결과는 프로젝트 페이지를 참조하라: https://zhw-zhang.github.io/MotionPro-page/.
English
Animating images with interactive motion control has garnered popularity for image-to-video (I2V) generation. Modern approaches typically rely on large Gaussian kernels to extend motion trajectories as condition without explicitly defining movement region, leading to coarse motion control and failing to disentangle object and camera moving. To alleviate these, we present MotionPro, a precise motion controller that novelly leverages region-wise trajectory and motion mask to regulate fine-grained motion synthesis and identify target motion category (i.e., object or camera moving), respectively. Technically, MotionPro first estimates the flow maps on each training video via a tracking model, and then samples the region-wise trajectories to simulate inference scenario. Instead of extending flow through large Gaussian kernels, our region-wise trajectory approach enables more precise control by directly utilizing trajectories within local regions, thereby effectively characterizing fine-grained movements. A motion mask is simultaneously derived from the predicted flow maps to capture the holistic motion dynamics of the movement regions. To pursue natural motion control, MotionPro further strengthens video denoising by incorporating both region-wise trajectories and motion mask through feature modulation. More remarkably, we meticulously construct a benchmark, i.e., MC-Bench, with 1.1K user-annotated image-trajectory pairs, for the evaluation of both fine-grained and object-level I2V motion control. Extensive experiments conducted on WebVid-10M and MC-Bench demonstrate the effectiveness of MotionPro. Please refer to our project page for more results: https://zhw-zhang.github.io/MotionPro-page/.

Summary

AI-Generated Summary

PDF193May 28, 2025