AnyMo: Escalado de Generación de Movimiento Condicional de Cualquier Modalidad con Modelado Enmascarado

Resumen

La generación condicional de movimiento humano sigue siendo un desafío fundamental en visión por computadora y robótica. A pesar del progreso significativo, los métodos actuales a menudo están limitados por configuraciones de modalidad fijas y arquitecturas específicas de tarea, dejando las interacciones entre modalidades y las leyes de escalamiento de la síntesis condicionada multimodal en gran parte inexploradas. Un cuello de botella clave es la escasez de datos de movimiento alineados por modalidad a gran escala, lo que limita la generalización a través de diversas señales de control. En este trabajo, presentamos OmniHuMo, un conjunto de datos a gran escala y de alta calidad que comprende más de 5,000 horas de movimiento y 3.2 millones de secuencias con anotaciones multimodales precisamente alineadas (por ejemplo, texto, habla, música y trayectoria). Aprovechando OmniHuMo, proponemos AnyMo, un marco multimodal unificado que combina un tokenizador de movimiento basado en FSQ Residual con un transformador de modelado enmascarado escalable, permitiendo la síntesis de movimiento de alta calidad bajo combinaciones arbitrarias de modalidades. Experimentos exhaustivos muestran que AnyMo logra una síntesis de alta fidelidad al tiempo que ofrece un control flexible sobre atributos tanto espaciales como estilísticos.

English

Conditional human motion generation remains a fundamental challenge in computer vision and robotics. Despite significant progress, current methods are often constrained by fixed modality configurations and task-specific architectures, leaving cross-modal interactions and the scaling laws of multimodal-conditioned synthesis largely underexplored. A key bottleneck is the scarcity of large-scale modality-aligned motion data, limiting generalization across diverse control signals. In this work, we introduce OmniHuMo, a large-scale, high-quality dataset comprising over 5,000 hours of motion and 3.2 million sequences with precisely aligned multimodal annotations (e.g., text, speech, music, and trajectory). Leveraging OmniHuMo, we propose AnyMo, a unified multimodal framework combining a Residual FSQ-based motion tokenizer with a scalable masked modeling transformer, enabling high-quality motion synthesis under arbitrary modality combinations. Extensive experiments show that AnyMo achieves high-fidelity synthesis while offering flexible control over both spatial and stylistic attributes.