AnyMo: Modelado del movimiento humano en entornos reales, consciente de la geometría e independiente de la configuración

Resumen

A medida que los dispositivos portátiles y móviles se integran cada vez más en la vida cotidiana, ofrecen una forma práctica de detectar continuamente el movimiento humano en entornos no controlados. Sin embargo, las señales inerciales dependen en gran medida de la configuración de detección, incluyendo la ubicación en el cuerpo, la posición de montaje, la orientación del sensor, el hardware del dispositivo y el protocolo de muestreo. Esta dependencia de la configuración dificulta el aprendizaje de representaciones de movimiento que se transfieran entre dispositivos y conjuntos de datos, y limita el uso más amplio de las IMU portátiles más allá del reconocimiento de conjuntos cerrados. Presentamos AnyMo, un marco consciente de la geometría para el modelado de movimiento humano independiente de la configuración. AnyMo utiliza una simulación de IMU basada en física sobre ubicaciones densas en la superficie del cuerpo para generar señales sintéticas diversas y plausibles, preentrena un codificador de grafos a partir de pares de vistas sintéticas de colocaciones y observaciones parciales enmascaradas, tokeniza IMU multiposición en tokens de movimiento corporal completo, y alinea estos tokens con un LLM para la comprensión de movimiento-lenguaje. Evaluamos AnyMo en tres tareas complementarias: reconocimiento de actividades zero-shot en 14 conjuntos de datos no vistos aguas abajo, recuperación entre modalidades y descripción de movimiento con IMU portátil, donde mejora la Precisión/F1/R@2 promedio en un 11,7%/11,6%/22,6% en HAR, incrementa el MRR de recuperación zero-shot de IMU a texto y de texto a IMU en un 15,9% y un 28,6%, respectivamente, y mejora el BERT-F1 de descripción zero-shot en un 18,8%. Estos resultados respaldan a AnyMo como un modelo generalista para la comprensión del movimiento mediante wearables en entornos no controlados. Página del proyecto: https://baiyuchen.com/project/AnyMo.

English

As wearable and mobile devices become increasingly embedded in daily life, they offer a practical way to continuously sense human motion in the wild. But inertial signals are highly dependent on the sensing setup, including body location, mounting position, sensor orientation, device hardware, and sampling protocol. This setup dependence makes it difficult to learn motion representations that transfer across devices and datasets, and limits the broader use of wearable IMUs beyond closed-set recognition. We introduce AnyMo, a geometry-aware framework for setup-agnostic human motion modeling. AnyMo uses physics-grounded IMU simulation over dense body-surface placements to generate diverse and plausible synthetic signals, pre-trains a graph encoder from paired synthetic placement views and masked partial observations, tokenizes multi-position IMU into full-body motion tokens, and aligns these tokens with an LLM for motion-language understanding. We evaluate AnyMo on three complementary tasks: zero-shot activity recognition across 14 unseen downstream datasets, cross-modal retrieval, and wearable IMU motion captioning, where it improves average Accuracy/F1/R@2 by 11.7\%/11.6\%/22.6\% on HAR, increases zero-shot IMU-to-text and text-to-IMU retrieval MRR by 15.9\% and 28.6\%, respectively, and improves zero-shot captioning BERT-F1 by 18.8\%. These results support AnyMo as a generalist model for wearable motion understanding in the wild. Project page: https://baiyuchen.com/project/AnyMo.