Recuperación de Movimiento de Grano Fino mediante Imágenes de Movimiento de Ángulo Articular e Interacción Tardía de Parches de Tokens
Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction
March 10, 2026
Autores: Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao
cs.AI
Resumen
La recuperación texto-movimiento tiene como objetivo aprender un espacio latente semánticamente alineado entre descripciones en lenguaje natural y secuencias de esqueletos de movimiento humano 3D, permitiendo una búsqueda bidireccional entre ambas modalidades. La mayoría de los métodos existentes utilizan un marco de doble codificador que comprime el movimiento y el texto en incrustaciones globales, descartando correspondencias locales de grano fino y reduciendo así la precisión. Además, estos métodos basados en incrustaciones globales ofrecen una interpretabilidad limitada de los resultados de recuperación. Para superar estas limitaciones, proponemos una representación de movimiento interpretable basada en ángulos articulares que mapea características locales a nivel de articulación en una pseudo-imagen estructurada, compatible con Vision Transformers preentrenados. Para la recuperación de texto a movimiento, empleamos MaxSim, un mecanismo de interacción tardía a nivel de tokens, y lo mejoramos con una regularización de Modelado de Lenguaje Enmascarado para fomentar una alineación texto-movimiento robusta e interpretable. Experimentos exhaustivos en HumanML3D y KIT-ML demuestran que nuestro método supera a los enfoques más avanzados de recuperación texto-movimiento, ofreciendo correspondencias interpretables de grano fino entre texto y movimiento. El código está disponible en el material suplementario.
English
Text-motion retrieval aims to learn a semantically aligned latent space between natural language descriptions and 3D human motion skeleton sequences, enabling bidirectional search across the two modalities. Most existing methods use a dual-encoder framework that compresses motion and text into global embeddings, discarding fine-grained local correspondences, and thus reducing accuracy. Additionally, these global-embedding methods offer limited interpretability of the retrieval results. To overcome these limitations, we propose an interpretable, joint-angle-based motion representation that maps joint-level local features into a structured pseudo-image, compatible with pre-trained Vision Transformers. For text-to-motion retrieval, we employ MaxSim, a token-wise late interaction mechanism, and enhance it with Masked Language Modeling regularization to foster robust, interpretable text-motion alignment. Extensive experiments on HumanML3D and KIT-ML show that our method outperforms state-of-the-art text-motion retrieval approaches while offering interpretable fine-grained correspondences between text and motion. The code is available in the supplementary material.