Récupération de mouvement à granularité fine via des images de mouvement par articulation et une interaction tardive jeton-patch

Résumé

La recherche texte-mouvement vise à apprendre un espace latent sémantiquement aligné entre les descriptions en langage naturel et les séquences de squelettes de mouvements humains 3D, permettant une recherche bidirectionnelle entre les deux modalités. La plupart des méthodes existantes utilisent un cadre à double encodeur qui compresse le mouvement et le texte en embeddings globaux, éliminant les correspondances locales fines et réduisant ainsi la précision. De plus, ces méthodes basées sur l'embedding global offrent une interprétabilité limitée des résultats de recherche. Pour surmonter ces limitations, nous proposons une représentation du mouvement interprétable basée sur les angles articulaires, qui cartographie les caractéristiques locales au niveau des articulations dans une pseudo-image structurée, compatible avec les Vision Transformers pré-entraînés. Pour la recherche texte-vers-mouvement, nous utilisons MaxSim, un mécanisme d'interaction tardive token-wise, et l'améliorons avec une régularisation par modélisation de langage masqué pour favoriser un alignement texte-mouvement robuste et interprétable. Des expériences approfondies sur HumanML3D et KIT-ML montrent que notre méthode surpasse les approches état de l'art en recherche texte-mouvement tout en offrant des correspondances fines interprétables entre le texte et le mouvement. Le code est disponible dans le matériel supplémentaire.

English

Text-motion retrieval aims to learn a semantically aligned latent space between natural language descriptions and 3D human motion skeleton sequences, enabling bidirectional search across the two modalities. Most existing methods use a dual-encoder framework that compresses motion and text into global embeddings, discarding fine-grained local correspondences, and thus reducing accuracy. Additionally, these global-embedding methods offer limited interpretability of the retrieval results. To overcome these limitations, we propose an interpretable, joint-angle-based motion representation that maps joint-level local features into a structured pseudo-image, compatible with pre-trained Vision Transformers. For text-to-motion retrieval, we employ MaxSim, a token-wise late interaction mechanism, and enhance it with Masked Language Modeling regularization to foster robust, interpretable text-motion alignment. Extensive experiments on HumanML3D and KIT-ML show that our method outperforms state-of-the-art text-motion retrieval approaches while offering interpretable fine-grained correspondences between text and motion. The code is available in the supplementary material.

Récupération de mouvement à granularité fine via des images de mouvement par articulation et une interaction tardive jeton-patch

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Résumé

Support