Feinkörnige Bewegungsabfrage mittels Gelenkwinkel-Bewegungsbildern und Token-Patch-Spätinteraktion
Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction
March 10, 2026
Autoren: Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao
cs.AI
Zusammenfassung
Text-Motion-Retrieval zielt darauf ab, einen semantisch ausgerichteten latenten Raum zwischen natürlichen Sprachbeschreibungen und 3D-Human-Motion-Skelettsequenzen zu lernen, der eine bidirektionale Suche über die beiden Modalitäten hinweg ermöglicht. Die meisten bestehenden Methoden verwenden ein Dual-Encoder-Framework, das Bewegung und Text in globale Embeddings komprimiert, dabei aber feinkörnige lokale Entsprechungen verwirft und so die Genauigkeit verringert. Darüber hinaus bieten diese Global-Embedding-Methoden nur eine begrenzte Interpretierbarkeit der Retrieval-Ergebnisse. Um diese Einschränkungen zu überwinden, schlagen wir eine interpretierbare, gelenkwinkelbasierte Bewegungsrepräsentation vor, die gelenkbezogene lokale Merkmale in ein strukturiertes Pseudobild abbildet, das mit vortrainierten Vision Transformern kompatibel ist. Für Text-zu-Motion-Retrieval verwenden wir MaxSim, einen tokenweisen Spätinteraktionsmechanismus, und verbessern ihn durch Masked-Language-Modeling-Regularisierung, um eine robuste, interpretierbare Text-Bewegungs-Übereinstimmung zu fördern. Umfangreiche Experimente auf HumanML3D und KIT-ML zeigen, dass unsere Methode state-of-the-art Text-Motion-Retrieval-Ansätze übertrifft und gleichzeitig interpretierbare feinkörnige Entsprechungen zwischen Text und Bewegung bietet. Der Code ist im ergänzenden Material verfügbar.
English
Text-motion retrieval aims to learn a semantically aligned latent space between natural language descriptions and 3D human motion skeleton sequences, enabling bidirectional search across the two modalities. Most existing methods use a dual-encoder framework that compresses motion and text into global embeddings, discarding fine-grained local correspondences, and thus reducing accuracy. Additionally, these global-embedding methods offer limited interpretability of the retrieval results. To overcome these limitations, we propose an interpretable, joint-angle-based motion representation that maps joint-level local features into a structured pseudo-image, compatible with pre-trained Vision Transformers. For text-to-motion retrieval, we employ MaxSim, a token-wise late interaction mechanism, and enhance it with Masked Language Modeling regularization to foster robust, interpretable text-motion alignment. Extensive experiments on HumanML3D and KIT-ML show that our method outperforms state-of-the-art text-motion retrieval approaches while offering interpretable fine-grained correspondences between text and motion. The code is available in the supplementary material.