Recuperaçăo de Movimento de Alta Granularidade via Imagens de Movimento de Ângulo Articular e Interaçăo Tardia Token-Patch
Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction
March 10, 2026
Autores: Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao
cs.AI
Resumo
A recuperação texto-movimento tem como objetivo aprender um espaço latente semanticamente alinhado entre descrições em linguagem natural e sequências de esqueletos de movimento humano 3D, permitindo uma busca bidirecional entre as duas modalidades. A maioria dos métodos existentes utiliza uma estrutura de duplo codificador que comprime o movimento e o texto em incorporações globais, descartando correspondências locais de granularidade fina e, assim, reduzindo a precisão. Adicionalmente, esses métodos baseados em incorporações globais oferecem interpretabilidade limitada dos resultados de recuperação. Para superar essas limitações, propomos uma representação de movimento interpretável baseada em ângulos articulares, que mapeia características locais a nível de articulação numa pseudo-imagem estruturada, compatível com Vision Transformers pré-treinados. Para a recuperação de texto para movimento, empregamos o MaxSim, um mecanismo de interação tardia token a token, e aprimoramo-lo com regularização de Modelagem de Linguagem Mascarada para promover um alinhamento texto-movimento robusto e interpretável. Experimentos extensivos em HumanML3D e KIT-ML mostram que o nosso método supera as abordagens state-of-the-art de recuperação texto-movimento, ao mesmo tempo que oferece correspondências interpretáveis de granularidade fina entre texto e movimento. O código está disponível no material suplementar.
English
Text-motion retrieval aims to learn a semantically aligned latent space between natural language descriptions and 3D human motion skeleton sequences, enabling bidirectional search across the two modalities. Most existing methods use a dual-encoder framework that compresses motion and text into global embeddings, discarding fine-grained local correspondences, and thus reducing accuracy. Additionally, these global-embedding methods offer limited interpretability of the retrieval results. To overcome these limitations, we propose an interpretable, joint-angle-based motion representation that maps joint-level local features into a structured pseudo-image, compatible with pre-trained Vision Transformers. For text-to-motion retrieval, we employ MaxSim, a token-wise late interaction mechanism, and enhance it with Masked Language Modeling regularization to foster robust, interpretable text-motion alignment. Extensive experiments on HumanML3D and KIT-ML show that our method outperforms state-of-the-art text-motion retrieval approaches while offering interpretable fine-grained correspondences between text and motion. The code is available in the supplementary material.