AnyMo: Ampliando a Geração Condicional de Movimento de Qualquer Modalidade com Modelagem Mascarada

Resumo

A geração condicional de movimento humano continua sendo um desafio fundamental na visão computacional e na robótica. Apesar do progresso significativo, os métodos atuais são frequentemente limitados por configurações fixas de modalidade e arquiteturas específicas para tarefas, deixando as interações entre modalidades e as leis de escala da síntese multimodal condicionada amplamente inexploradas. Um gargalo crucial é a escassez de dados de movimento alinhados por modalidade em grande escala, o que limita a generalização em diversos sinais de controle. Neste trabalho, apresentamos o OmniHuMo, um conjunto de dados em grande escala e alta qualidade, composto por mais de 5.000 horas de movimento e 3,2 milhões de sequências com anotações multimodais precisamente alinhadas (por exemplo, texto, fala, música e trajetória). Aproveitando o OmniHuMo, propomos o AnyMo, uma estrutura multimodal unificada que combina um tokenizador de movimento baseado em FSQ Residual com um transformador de modelagem mascarada escalável, permitindo síntese de movimento de alta qualidade sob combinações arbitrárias de modalidades. Experimentos extensivos mostram que o AnyMo alcança síntese de alta fidelidade, oferecendo controle flexível sobre atributos espaciais e estilísticos.

English

Conditional human motion generation remains a fundamental challenge in computer vision and robotics. Despite significant progress, current methods are often constrained by fixed modality configurations and task-specific architectures, leaving cross-modal interactions and the scaling laws of multimodal-conditioned synthesis largely underexplored. A key bottleneck is the scarcity of large-scale modality-aligned motion data, limiting generalization across diverse control signals. In this work, we introduce OmniHuMo, a large-scale, high-quality dataset comprising over 5,000 hours of motion and 3.2 million sequences with precisely aligned multimodal annotations (e.g., text, speech, music, and trajectory). Leveraging OmniHuMo, we propose AnyMo, a unified multimodal framework combining a Residual FSQ-based motion tokenizer with a scalable masked modeling transformer, enabling high-quality motion synthesis under arbitrary modality combinations. Extensive experiments show that AnyMo achieves high-fidelity synthesis while offering flexible control over both spatial and stylistic attributes.