ChatPaper.aiChatPaper

MagicMotion: 밀집-희소 궤적 안내를 통한 제어 가능한 비디오 생성

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

March 20, 2025
저자: Quanhao Li, Zhen Xing, Rui Wang, Hui Zhang, Qi Dai, Zuxuan Wu
cs.AI

초록

최근 비디오 생성 분야의 발전으로 시각적 품질과 시간적 일관성이 크게 향상되었습니다. 이를 바탕으로, 명시적으로 정의된 공간 경로를 통해 정확한 객체 움직임 제어를 가능하게 하는 궤적 제어 가능 비디오 생성 기술이 등장했습니다. 그러나 기존 방법들은 복잡한 객체 움직임과 다중 객체 움직임 제어에 어려움을 겪어, 궤적 준수의 부정확성, 객체 일관성의 저하, 그리고 시각적 품질의 손상을 초래합니다. 더욱이, 이러한 방법들은 단일 형식의 궤적 제어만을 지원하여 다양한 시나리오에서의 적용 가능성이 제한됩니다. 또한, 궤적 제어 가능 비디오 생성을 위해 특별히 고안된 공개 데이터셋이나 벤치마크가 없어, 강력한 훈련과 체계적인 평가가 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 MagicMotion이라는 새로운 이미지-투-비디오 생성 프레임워크를 소개합니다. 이 프레임워크는 밀집에서 희소까지 세 가지 수준의 조건(마스크, 바운딩 박스, 희소 박스)을 통해 궤적 제어를 가능하게 합니다. 입력 이미지와 궤적이 주어지면, MagicMotion은 정의된 궤적을 따라 객체를 자연스럽게 움직이면서 객체 일관성과 시각적 품질을 유지합니다. 또한, 우리는 MagicData라는 대규모 궤적 제어 비디오 데이터셋과 주석 및 필터링을 위한 자동화된 파이프라인을 제시합니다. 그리고 MagicBench라는 종합 벤치마크를 도입하여, 다양한 객체 수에 걸친 비디오 품질과 궤적 제어 정확성을 평가합니다. 광범위한 실험을 통해 MagicMotion이 다양한 메트릭에서 이전 방법들을 능가함을 입증했습니다. 우리의 프로젝트 페이지는 https://quanhaol.github.io/magicmotion-site에서 공개되어 있습니다.
English
Recent advances in video generation have led to remarkable improvements in visual quality and temporal coherence. Upon this, trajectory-controllable video generation has emerged to enable precise object motion control through explicitly defined spatial paths. However, existing methods struggle with complex object movements and multi-object motion control, resulting in imprecise trajectory adherence, poor object consistency, and compromised visual quality. Furthermore, these methods only support trajectory control in a single format, limiting their applicability in diverse scenarios. Additionally, there is no publicly available dataset or benchmark specifically tailored for trajectory-controllable video generation, hindering robust training and systematic evaluation. To address these challenges, we introduce MagicMotion, a novel image-to-video generation framework that enables trajectory control through three levels of conditions from dense to sparse: masks, bounding boxes, and sparse boxes. Given an input image and trajectories, MagicMotion seamlessly animates objects along defined trajectories while maintaining object consistency and visual quality. Furthermore, we present MagicData, a large-scale trajectory-controlled video dataset, along with an automated pipeline for annotation and filtering. We also introduce MagicBench, a comprehensive benchmark that assesses both video quality and trajectory control accuracy across different numbers of objects. Extensive experiments demonstrate that MagicMotion outperforms previous methods across various metrics. Our project page are publicly available at https://quanhaol.github.io/magicmotion-site.

Summary

AI-Generated Summary

PDF92March 21, 2025