AnyMo: Geometriebewusste, aufbauunabhängige Modellierung menschlicher Bewegung in freier Wildbahn

Zusammenfassung

Da tragbare und mobile Geräte zunehmend im Alltag integriert sind, bieten sie eine praktische Möglichkeit, menschliche Bewegung in der realen Umgebung kontinuierlich zu erfassen. Trägheitssignale sind jedoch stark von der Messanordnung abhängig, einschließlich der Körperposition, der Befestigungsposition, der Sensorausrichtung, der Gerätehardware und des Abtastprotokolls. Diese Anordnungsabhängigkeit erschwert es, Bewegungsdarstellungen zu lernen, die über Geräte und Datensätze hinweg übertragbar sind, und schränkt die breitere Nutzung tragbarer IMUs über die Erkennung in geschlossenen Mengen hinaus ein. Wir stellen AnyMo vor, ein geometriebewusstes Framework für anordnungsunabhängige Modellierung menschlicher Bewegung. AnyMo nutzt eine physikalisch fundierte IMU-Simulation über dichte Platzierungen auf der Körperoberfläche, um vielfältige und plausible synthetische Signale zu erzeugen, trainiert einen Graph-Encoder mit gepaarten synthetischen Platzierungsansichten und maskierten partiellen Beobachtungen vor, tokenisiert IMU-Daten von mehreren Positionen zu Ganzkörper-Bewegungstokens und richtet diese Tokens an einem LLM für das Bewegungs-Sprachverständnis aus. Wir evaluieren AnyMo anhand von drei sich ergänzenden Aufgaben: Null-Schritt-Aktivitätserkennung über 14 unbekannte nachgelagerte Datensätze, modalitätsübergreifendes Retrieval und tragbare IMU-Bewegungsbeschriftung, wobei es die durchschnittliche Genauigkeit/F1/R@2 bei HAR um 11,7 %/11,6 %/22,6 % verbessert, das Null-Schritt-IMU-zu-Text- und Text-zu-IMU-Retrieval (MRR) um 15,9 % bzw. 28,6 % steigert und den Null-Schritt-Beschriftungs-BERT-F1 um 18,8 % erhöht. Diese Ergebnisse stützen AnyMo als generalistisches Modell für das Verständnis tragbarer Bewegung in der realen Umgebung. Projektseite: https://baiyuchen.com/project/AnyMo.

English

As wearable and mobile devices become increasingly embedded in daily life, they offer a practical way to continuously sense human motion in the wild. But inertial signals are highly dependent on the sensing setup, including body location, mounting position, sensor orientation, device hardware, and sampling protocol. This setup dependence makes it difficult to learn motion representations that transfer across devices and datasets, and limits the broader use of wearable IMUs beyond closed-set recognition. We introduce AnyMo, a geometry-aware framework for setup-agnostic human motion modeling. AnyMo uses physics-grounded IMU simulation over dense body-surface placements to generate diverse and plausible synthetic signals, pre-trains a graph encoder from paired synthetic placement views and masked partial observations, tokenizes multi-position IMU into full-body motion tokens, and aligns these tokens with an LLM for motion-language understanding. We evaluate AnyMo on three complementary tasks: zero-shot activity recognition across 14 unseen downstream datasets, cross-modal retrieval, and wearable IMU motion captioning, where it improves average Accuracy/F1/R@2 by 11.7\%/11.6\%/22.6\% on HAR, increases zero-shot IMU-to-text and text-to-IMU retrieval MRR by 15.9\% and 28.6\%, respectively, and improves zero-shot captioning BERT-F1 by 18.8\%. These results support AnyMo as a generalist model for wearable motion understanding in the wild. Project page: https://baiyuchen.com/project/AnyMo.