AnyMo: Opschaling van conditionele bewegingsgeneratie voor elke modaliteit met gemaskeerd modelleren

Samenvatting

Conditionele generatie van menselijke beweging blijft een fundamentele uitdaging in computervisie en robotica. Ondanks aanzienlijke vooruitgang worden huidige methoden vaak beperkt door vaste modaliteitsconfiguraties en taakspecifieke architecturen, waardoor cross-modale interacties en de schaalwetten van multimodaal geconditioneerde synthese grotendeels onderbelicht blijven. Een belangrijk knelpunt is de schaarste aan grootschalige modaliteitsafgestemde bewegingsdata, wat de generalisatie over diverse controlesignalen beperkt. In dit werk introduceren we OmniHuMo, een grootschalige, hoogwaardige dataset die meer dan 5.000 uur aan beweging en 3,2 miljoen sequenties omvat met nauwkeurig afgestemde multimodale annotaties (bijv. tekst, spraak, muziek en trajectorie). Gebruikmakend van OmniHuMo stellen we AnyMo voor, een uniform multimodaal raamwerk dat een op Residual FSQ gebaseerde bewegings-tokenizer combineert met een schaalbare gemaskeerde modelleringstransformator, waardoor synthese van beweging van hoge kwaliteit onder willekeurige modaliteitscombinaties mogelijk wordt. Uitgebreide experimenten tonen aan dat AnyMo synthese met hoge getrouwheid bereikt, terwijl het flexibele controle biedt over zowel ruimtelijke als stilistische kenmerken.

English

Conditional human motion generation remains a fundamental challenge in computer vision and robotics. Despite significant progress, current methods are often constrained by fixed modality configurations and task-specific architectures, leaving cross-modal interactions and the scaling laws of multimodal-conditioned synthesis largely underexplored. A key bottleneck is the scarcity of large-scale modality-aligned motion data, limiting generalization across diverse control signals. In this work, we introduce OmniHuMo, a large-scale, high-quality dataset comprising over 5,000 hours of motion and 3.2 million sequences with precisely aligned multimodal annotations (e.g., text, speech, music, and trajectory). Leveraging OmniHuMo, we propose AnyMo, a unified multimodal framework combining a Residual FSQ-based motion tokenizer with a scalable masked modeling transformer, enabling high-quality motion synthesis under arbitrary modality combinations. Extensive experiments show that AnyMo achieves high-fidelity synthesis while offering flexible control over both spatial and stylistic attributes.