AnyMo: Modelagem de Movimento Humano em Ambientes Reais com Consciência Geométrica e Independência de Configuração

Resumo

À medida que dispositivos vestíveis e móveis se tornam cada vez mais integrados à vida cotidiana, eles oferecem uma maneira prática de detectar continuamente o movimento humano em ambientes reais. No entanto, os sinais inerciais são altamente dependentes da configuração de sensoriamento, incluindo localização no corpo, posição de montagem, orientação do sensor, hardware do dispositivo e protocolo de amostragem. Essa dependência da configuração dificulta o aprendizado de representações de movimento que sejam transferíveis entre dispositivos e conjuntos de dados, e limita o uso mais amplo de IMUs vestíveis além do reconhecimento de conjunto fechado. Apresentamos o AnyMo, uma framework com consciência geométrica para modelagem de movimento humano independente de configuração. O AnyMo utiliza simulação de IMU fundamentada na física sobre posicionamentos densos na superfície do corpo para gerar sinais sintéticos diversos e plausíveis, pré-treina um codificador de grafos a partir de pares de visualizações sintéticas e observações parciais mascaradas, tokeniza IMUs de múltiplas posições em tokens de movimento corporal completo e alinha esses tokens com um LLM para compreensão de movimento-linguagem. Avaliamos o AnyMo em três tarefas complementares: reconhecimento de atividade zero-shot em 14 conjuntos de dados downstream não vistos, recuperação cross-modal e legendagem de movimento com IMU vestível, onde ele melhora a Acurácia/F1/R@2 médias em 11,7%/11,6%/22,6% em HAR, aumenta a recuperação zero-shot IMU-para-texto e texto-para-IMU no MRR em 15,9% e 28,6%, respectivamente, e melhora a legendagem zero-shot no BERT-F1 em 18,8%. Esses resultados apoiam o AnyMo como um modelo generalista para compreensão de movimento vestível em ambientes reais. Página do projeto: https://baiyuchen.com/project/AnyMo.

English

As wearable and mobile devices become increasingly embedded in daily life, they offer a practical way to continuously sense human motion in the wild. But inertial signals are highly dependent on the sensing setup, including body location, mounting position, sensor orientation, device hardware, and sampling protocol. This setup dependence makes it difficult to learn motion representations that transfer across devices and datasets, and limits the broader use of wearable IMUs beyond closed-set recognition. We introduce AnyMo, a geometry-aware framework for setup-agnostic human motion modeling. AnyMo uses physics-grounded IMU simulation over dense body-surface placements to generate diverse and plausible synthetic signals, pre-trains a graph encoder from paired synthetic placement views and masked partial observations, tokenizes multi-position IMU into full-body motion tokens, and aligns these tokens with an LLM for motion-language understanding. We evaluate AnyMo on three complementary tasks: zero-shot activity recognition across 14 unseen downstream datasets, cross-modal retrieval, and wearable IMU motion captioning, where it improves average Accuracy/F1/R@2 by 11.7\%/11.6\%/22.6\% on HAR, increases zero-shot IMU-to-text and text-to-IMU retrieval MRR by 15.9\% and 28.6\%, respectively, and improves zero-shot captioning BERT-F1 by 18.8\%. These results support AnyMo as a generalist model for wearable motion understanding in the wild. Project page: https://baiyuchen.com/project/AnyMo.