모션 애니띵: 어떤 것에서 모션 생성으로
Motion Anything: Any to Motion Generation
March 10, 2025
저자: Zeyu Zhang, Yiran Wang, Wei Mao, Danning Li, Rui Zhao, Biao Wu, Zirui Song, Bohan Zhuang, Ian Reid, Richard Hartley
cs.AI
초록
조건부 동작 생성은 컴퓨터 비전 분야에서 광범위하게 연구되어 왔지만, 여전히 두 가지 중요한 과제가 남아 있습니다. 첫째, 마스크된 자기회귀 방법이 최근 확산 기반 접근법을 능가했음에도 불구하고, 기존의 마스킹 모델은 주어진 조건에 따라 동적 프레임과 신체 부위를 우선적으로 처리할 수 있는 메커니즘이 부족합니다. 둘째, 다양한 조건 모달리티를 위한 기존 방법들은 종종 여러 모달리티를 효과적으로 통합하지 못해 생성된 동작의 제어력과 일관성이 제한됩니다. 이러한 과제를 해결하기 위해, 우리는 Motion Anything을 제안합니다. 이는 주의 기반 마스크 모델링 접근법을 도입하여 핵심 프레임과 동작에 대한 세밀한 공간적 및 시간적 제어를 가능하게 하는 다중 모달 동작 생성 프레임워크입니다. 우리의 모델은 텍스트와 음악을 포함한 다중 모달 조건을 적응적으로 인코딩하여 제어력을 향상시킵니다. 또한, 우리는 2,153개의 텍스트, 음악, 춤 쌍으로 구성된 새로운 동작 데이터셋인 Text-Music-Dance(TMD)를 소개합니다. 이는 AIST++의 두 배 크기로, 커뮤니티에서 중요한 공백을 메웁니다. 광범위한 실험을 통해 Motion Anything이 여러 벤치마크에서 최첨단 방법을 능가하며, HumanML3D에서 FID 15% 개선을 달성하고 AIST++ 및 TMD에서 일관된 성능 향상을 보임을 입증했습니다. 자세한 내용은 프로젝트 웹사이트 https://steve-zeyu-zhang.github.io/MotionAnything를 참조하십시오.
English
Conditional motion generation has been extensively studied in computer
vision, yet two critical challenges remain. First, while masked autoregressive
methods have recently outperformed diffusion-based approaches, existing masking
models lack a mechanism to prioritize dynamic frames and body parts based on
given conditions. Second, existing methods for different conditioning
modalities often fail to integrate multiple modalities effectively, limiting
control and coherence in generated motion. To address these challenges, we
propose Motion Anything, a multimodal motion generation framework that
introduces an Attention-based Mask Modeling approach, enabling fine-grained
spatial and temporal control over key frames and actions. Our model adaptively
encodes multimodal conditions, including text and music, improving
controllability. Additionally, we introduce Text-Music-Dance (TMD), a new
motion dataset consisting of 2,153 pairs of text, music, and dance, making it
twice the size of AIST++, thereby filling a critical gap in the community.
Extensive experiments demonstrate that Motion Anything surpasses
state-of-the-art methods across multiple benchmarks, achieving a 15%
improvement in FID on HumanML3D and showing consistent performance gains on
AIST++ and TMD. See our project website
https://steve-zeyu-zhang.github.io/MotionAnythingSummary
AI-Generated Summary