AnyMo: Skalierung der bedingten Bewegungsgenerierung mit beliebigen Modalitäten durch maskiertes Modellieren

Zusammenfassung

Die bedingte Generierung menschlicher Bewegungen bleibt eine grundlegende Herausforderung in der Computervision und Robotik. Trotz erheblicher Fortschritte sind aktuelle Methoden oft durch feste Modalitätskonfigurationen und aufgabenspezifische Architekturen eingeschränkt, sodass modalitätsübergreifende Interaktionen und die Skalierungsgesetze der multimodal konditionierten Synthese weitgehend unerforscht bleiben. Ein wesentlicher Engpass ist die Knappheit großer, modalitätsabgestimmter Bewegungsdaten, was die Generalisierung über verschiedene Kontrollsignale hinweg einschränkt. In dieser Arbeit stellen wir OmniHuMo vor, einen groß angelegten, qualitativ hochwertigen Datensatz, der über 5.000 Stunden Bewegung und 3,2 Millionen Sequenzen mit präzise abgestimmten multimodalen Annotationen (z. B. Text, Sprache, Musik und Trajektorie) umfasst. Unter Nutzung von OmniHuMo schlagen wir AnyMo vor, ein einheitliches multimodales Framework, das einen auf Residual-FSQ basierenden Bewegungstokenizer mit einem skalierbaren Maskenmodellierungs-Transformer kombiniert und eine hochwertige Bewegungssynthese unter beliebigen Modalitätskombinationen ermöglicht. Umfangreiche Experimente zeigen, dass AnyMo eine hochgetreue Synthese erreicht und gleichzeitig eine flexible Kontrolle über sowohl räumliche als auch stilistische Attribute bietet.

English

Conditional human motion generation remains a fundamental challenge in computer vision and robotics. Despite significant progress, current methods are often constrained by fixed modality configurations and task-specific architectures, leaving cross-modal interactions and the scaling laws of multimodal-conditioned synthesis largely underexplored. A key bottleneck is the scarcity of large-scale modality-aligned motion data, limiting generalization across diverse control signals. In this work, we introduce OmniHuMo, a large-scale, high-quality dataset comprising over 5,000 hours of motion and 3.2 million sequences with precisely aligned multimodal annotations (e.g., text, speech, music, and trajectory). Leveraging OmniHuMo, we propose AnyMo, a unified multimodal framework combining a Residual FSQ-based motion tokenizer with a scalable masked modeling transformer, enabling high-quality motion synthesis under arbitrary modality combinations. Extensive experiments show that AnyMo achieves high-fidelity synthesis while offering flexible control over both spatial and stylistic attributes.