AnyMo : Mise à l'échelle de la génération de mouvement conditionnelle pour toute modalité avec modélisation masquée

Résumé

La génération conditionnelle de mouvements humains reste un défi fondamental en vision par ordinateur et en robotique. Malgré des progrès significatifs, les méthodes actuelles sont souvent contraintes par des configurations de modalité fixes et des architectures spécifiques à une tâche, laissant largement inexplorées les interactions intermodales et les lois d'échelle de la synthèse conditionnée par modalités multiples. Un goulet d'étranglement clé est la rareté de données de mouvement alignées sur plusieurs modalités à grande échelle, ce qui limite la généralisation à travers divers signaux de contrôle. Dans ce travail, nous introduisons OmniHuMo, un jeu de données à grande échelle et de haute qualité comprenant plus de 5 000 heures de mouvement et 3,2 millions de séquences avec des annotations multimodales précisément alignées (par exemple, texte, parole, musique et trajectoire). En exploitant OmniHuMo, nous proposons AnyMo, un cadre multimodal unifié combinant un tokenizer de mouvement basé sur FSQ résiduel avec un transformateur de modélisation masquée scalable, permettant une synthèse de mouvement de haute qualité sous des combinaisons arbitraires de modalités. Des expériences approfondies montrent qu'AnyMo atteint une synthèse haute-fidélité tout en offrant un contrôle flexible sur les attributs à la fois spatiaux et stylistiques.

English

Conditional human motion generation remains a fundamental challenge in computer vision and robotics. Despite significant progress, current methods are often constrained by fixed modality configurations and task-specific architectures, leaving cross-modal interactions and the scaling laws of multimodal-conditioned synthesis largely underexplored. A key bottleneck is the scarcity of large-scale modality-aligned motion data, limiting generalization across diverse control signals. In this work, we introduce OmniHuMo, a large-scale, high-quality dataset comprising over 5,000 hours of motion and 3.2 million sequences with precisely aligned multimodal annotations (e.g., text, speech, music, and trajectory). Leveraging OmniHuMo, we propose AnyMo, a unified multimodal framework combining a Residual FSQ-based motion tokenizer with a scalable masked modeling transformer, enabling high-quality motion synthesis under arbitrary modality combinations. Extensive experiments show that AnyMo achieves high-fidelity synthesis while offering flexible control over both spatial and stylistic attributes.