ChatPaper.aiChatPaper

Movimiento Cualquiera: Generación de Cualquier cosa a Movimiento

Motion Anything: Any to Motion Generation

March 10, 2025
Autores: Zeyu Zhang, Yiran Wang, Wei Mao, Danning Li, Rui Zhao, Biao Wu, Zirui Song, Bohan Zhuang, Ian Reid, Richard Hartley
cs.AI

Resumen

La generación condicional de movimiento ha sido ampliamente estudiada en visión por computadora, sin embargo, persisten dos desafíos críticos. En primer lugar, aunque los métodos autoregresivos enmascarados han superado recientemente a los enfoques basados en difusión, los modelos de enmascaramiento existentes carecen de un mecanismo para priorizar los fotogramas dinámicos y las partes del cuerpo en función de las condiciones dadas. En segundo lugar, los métodos existentes para diferentes modalidades de condicionamiento a menudo no logran integrar múltiples modalidades de manera efectiva, lo que limita el control y la coherencia en el movimiento generado. Para abordar estos desafíos, proponemos Motion Anything, un marco de generación de movimiento multimodal que introduce un enfoque de Modelado de Enmascaramiento Basado en Atención, permitiendo un control espacial y temporal de grano fino sobre fotogramas clave y acciones. Nuestro modelo codifica de manera adaptativa condiciones multimodales, incluyendo texto y música, mejorando la controlabilidad. Además, presentamos Text-Music-Dance (TMD), un nuevo conjunto de datos de movimiento que consta de 2,153 pares de texto, música y danza, lo que lo hace dos veces más grande que AIST++, llenando así una brecha crítica en la comunidad. Experimentos extensivos demuestran que Motion Anything supera a los métodos más avanzados en múltiples benchmarks, logrando una mejora del 15% en FID en HumanML3D y mostrando ganancias consistentes en rendimiento en AIST++ y TMD. Consulte nuestro sitio web del proyecto https://steve-zeyu-zhang.github.io/MotionAnything.
English
Conditional motion generation has been extensively studied in computer vision, yet two critical challenges remain. First, while masked autoregressive methods have recently outperformed diffusion-based approaches, existing masking models lack a mechanism to prioritize dynamic frames and body parts based on given conditions. Second, existing methods for different conditioning modalities often fail to integrate multiple modalities effectively, limiting control and coherence in generated motion. To address these challenges, we propose Motion Anything, a multimodal motion generation framework that introduces an Attention-based Mask Modeling approach, enabling fine-grained spatial and temporal control over key frames and actions. Our model adaptively encodes multimodal conditions, including text and music, improving controllability. Additionally, we introduce Text-Music-Dance (TMD), a new motion dataset consisting of 2,153 pairs of text, music, and dance, making it twice the size of AIST++, thereby filling a critical gap in the community. Extensive experiments demonstrate that Motion Anything surpasses state-of-the-art methods across multiple benchmarks, achieving a 15% improvement in FID on HumanML3D and showing consistent performance gains on AIST++ and TMD. See our project website https://steve-zeyu-zhang.github.io/MotionAnything

Summary

AI-Generated Summary

PDF326March 13, 2025