Recupero del Movimento a Grana Fine tramite Immagini del Movimento basate su Angoli Articolari e Interazione Tardiva Token-Patch

Abstract

La ricerca testo-movimento mira ad apprendere uno spazio latente semanticamente allineato tra descrizioni in linguaggio naturale e sequenze scheletriche di movimento umano 3D, abilitando una ricerca bidirezionale tra le due modalità. La maggior parte dei metodi esistenti utilizza un framework a doppio encoder che comprime il movimento e il testo in embedding globali, scartando le corrispondenze locali di fine granularità e riducendo così l'accuratezza. Inoltre, questi metodi basati su embedding globali offrono una limitata interpretabilità dei risultati di retrieval. Per superare queste limitazioni, proponiamo una rappresentazione del movimento interpretabile, basata sugli angoli articolari, che mappa feature locali a livello di articolazione in una pseudo-immagine strutturata, compatibile con Vision Transformer pre-addestrati. Per il retrieval da testo a movimento, impieghiamo MaxSim, un meccanismo di interazione tardiva token-wise, e lo potenziamo con una regolarizzazione di Masked Language Modeling per favorire un allineamento testo-movimento robusto e interpretabile. Esperimenti estesi su HumanML3D e KIT-ML dimostrano che il nostro metodo supera gli approcci allo stato dell'arte per il retrieval testo-movimento, offrendo al contempo corrispondenze interpretabili di fine granularità tra testo e movimento. Il codice è disponibile nel materiale supplementare.

English

Text-motion retrieval aims to learn a semantically aligned latent space between natural language descriptions and 3D human motion skeleton sequences, enabling bidirectional search across the two modalities. Most existing methods use a dual-encoder framework that compresses motion and text into global embeddings, discarding fine-grained local correspondences, and thus reducing accuracy. Additionally, these global-embedding methods offer limited interpretability of the retrieval results. To overcome these limitations, we propose an interpretable, joint-angle-based motion representation that maps joint-level local features into a structured pseudo-image, compatible with pre-trained Vision Transformers. For text-to-motion retrieval, we employ MaxSim, a token-wise late interaction mechanism, and enhance it with Masked Language Modeling regularization to foster robust, interpretable text-motion alignment. Extensive experiments on HumanML3D and KIT-ML show that our method outperforms state-of-the-art text-motion retrieval approaches while offering interpretable fine-grained correspondences between text and motion. The code is available in the supplementary material.

Recupero del Movimento a Grana Fine tramite Immagini del Movimento basate su Angoli Articolari e Interazione Tardiva Token-Patch

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Abstract

Support