AnyMo: Масштабирование условной генерации движений с произвольной модальностью посредством маскированного моделирования

Аннотация

Условная генерация движений человека остаётся фундаментальной проблемой в компьютерном зрении и робототехнике. Несмотря на значительный прогресс, современные методы часто ограничены фиксированными модальными конфигурациями и архитектурами, ориентированными на конкретные задачи, что оставляет кросс-модальные взаимодействия и масштабирующие законы мультимодального синтеза во многом неизученными. Ключевым узким местом является нехватка крупномасштабных модально-согласованных данных о движении, что ограничивает обобщение на различные управляющие сигналы. В данной работе мы представляем OmniHuMo — крупномасштабный высококачественный набор данных, содержащий более 5000 часов движения и 3,2 миллиона последовательностей с точно согласованными мультимодальными аннотациями (например, текст, речь, музыка и траектория). Опираясь на OmniHuMo, мы предлагаем AnyMo — унифицированную мультимодальную архитектуру, объединяющую токенизатор движений на основе Residual FSQ с масштабируемым трансформером с маскированным моделированием, что обеспечивает высококачественный синтез движений при произвольных комбинациях модальностей. Обширные эксперименты показывают, что AnyMo достигает синтеза высокой точности, предоставляя гибкий контроль как над пространственными, так и над стилистическими атрибутами.

English

Conditional human motion generation remains a fundamental challenge in computer vision and robotics. Despite significant progress, current methods are often constrained by fixed modality configurations and task-specific architectures, leaving cross-modal interactions and the scaling laws of multimodal-conditioned synthesis largely underexplored. A key bottleneck is the scarcity of large-scale modality-aligned motion data, limiting generalization across diverse control signals. In this work, we introduce OmniHuMo, a large-scale, high-quality dataset comprising over 5,000 hours of motion and 3.2 million sequences with precisely aligned multimodal annotations (e.g., text, speech, music, and trajectory). Leveraging OmniHuMo, we propose AnyMo, a unified multimodal framework combining a Residual FSQ-based motion tokenizer with a scalable masked modeling transformer, enabling high-quality motion synthesis under arbitrary modality combinations. Extensive experiments show that AnyMo achieves high-fidelity synthesis while offering flexible control over both spatial and stylistic attributes.