Motion Anything: Geração de Movimento a Partir de Qualquer Entrada
Motion Anything: Any to Motion Generation
March 10, 2025
Autores: Zeyu Zhang, Yiran Wang, Wei Mao, Danning Li, Rui Zhao, Biao Wu, Zirui Song, Bohan Zhuang, Ian Reid, Richard Hartley
cs.AI
Resumo
A geração condicional de movimento tem sido amplamente estudada na visão computacional, mas dois desafios críticos permanecem. Primeiro, embora métodos autoregressivos com máscara tenham recentemente superado abordagens baseadas em difusão, os modelos existentes de mascaramento carecem de um mecanismo para priorizar quadros dinâmicos e partes do corpo com base em condições dadas. Segundo, os métodos existentes para diferentes modalidades de condicionamento frequentemente falham em integrar múltiplas modalidades de forma eficaz, limitando o controle e a coerência no movimento gerado. Para abordar esses desafios, propomos o Motion Anything, um framework de geração de movimento multimodal que introduz uma abordagem de Modelagem de Máscara Baseada em Atenção, permitindo um controle refinado espacial e temporal sobre quadros-chave e ações. Nosso modelo codifica adaptativamente condições multimodais, incluindo texto e música, melhorando a controlabilidade. Além disso, introduzimos o Text-Music-Dance (TMD), um novo conjunto de dados de movimento composto por 2.153 pares de texto, música e dança, tornando-o duas vezes maior que o AIST++, preenchendo assim uma lacuna crítica na comunidade. Experimentos extensivos demonstram que o Motion Anything supera métodos state-of-the-art em múltiplos benchmarks, alcançando uma melhoria de 15% no FID no HumanML3D e mostrando ganhos consistentes de desempenho no AIST++ e no TMD. Veja nosso site do projeto em https://steve-zeyu-zhang.github.io/MotionAnything.
English
Conditional motion generation has been extensively studied in computer
vision, yet two critical challenges remain. First, while masked autoregressive
methods have recently outperformed diffusion-based approaches, existing masking
models lack a mechanism to prioritize dynamic frames and body parts based on
given conditions. Second, existing methods for different conditioning
modalities often fail to integrate multiple modalities effectively, limiting
control and coherence in generated motion. To address these challenges, we
propose Motion Anything, a multimodal motion generation framework that
introduces an Attention-based Mask Modeling approach, enabling fine-grained
spatial and temporal control over key frames and actions. Our model adaptively
encodes multimodal conditions, including text and music, improving
controllability. Additionally, we introduce Text-Music-Dance (TMD), a new
motion dataset consisting of 2,153 pairs of text, music, and dance, making it
twice the size of AIST++, thereby filling a critical gap in the community.
Extensive experiments demonstrate that Motion Anything surpasses
state-of-the-art methods across multiple benchmarks, achieving a 15%
improvement in FID on HumanML3D and showing consistent performance gains on
AIST++ and TMD. See our project website
https://steve-zeyu-zhang.github.io/MotionAnythingSummary
AI-Generated Summary