관절 각도 운동 이미지와 토큰-패치 후기 상호작용을 통한 세분화된 동작 검색
Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction
March 10, 2026
저자: Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao
cs.AI
초록
텍스트-모션 검색은 자연어 설명과 3D 인간 모션 스켈레톤 시퀀스 간의 의미론적으로 정렬된 잠재 공간을 학습하여 두 모달리티 간의 양방향 검색을 가능하게 하는 것을 목표로 합니다. 기존 방법 대부분은 모션과 텍스트를 전역 임베딩으로 압축하여 세분화된 지역적 대응 관계를 제거함으로써 정확도를 낮추는 이중 인코더 프레임워크를 사용합니다. 또한 이러한 전역 임베딩 기반 방법은 검색 결과에 대한 해석 가능성을 제한적으로 제공합니다. 이러한 한계를 극복하기 위해, 본 연구에서는 관절 수준의 지역적 특징을 구조화된 유사 이미지로 매핑하여 사전 학습된 Vision Transformer와 호환되는 해석 가능한 관절 각도 기반 모션 표현 방식을 제안합니다. 텍스트-모션 검색을 위해 토큰 단위 후기 상호작용 메커니즘인 MaxSim을 활용하고, 강건하고 해석 가능한 텍스트-모션 정렬을 촉진하기 위해 Masked Language Modeling 정규화를 강화하여 적용합니다. HumanML3D와 KIT-ML에 대한 광범위한 실험을 통해 제안 방법이 최신 텍스트-모션 검색 접근법을 능가하는 성능을 보이면서도 텍스트와 모션 간의 해석 가능한 세분화된 대응 관계를 제공함을 입증합니다. 코드는 보충 자료에서 확인할 수 있습니다.
English
Text-motion retrieval aims to learn a semantically aligned latent space between natural language descriptions and 3D human motion skeleton sequences, enabling bidirectional search across the two modalities. Most existing methods use a dual-encoder framework that compresses motion and text into global embeddings, discarding fine-grained local correspondences, and thus reducing accuracy. Additionally, these global-embedding methods offer limited interpretability of the retrieval results. To overcome these limitations, we propose an interpretable, joint-angle-based motion representation that maps joint-level local features into a structured pseudo-image, compatible with pre-trained Vision Transformers. For text-to-motion retrieval, we employ MaxSim, a token-wise late interaction mechanism, and enhance it with Masked Language Modeling regularization to foster robust, interpretable text-motion alignment. Extensive experiments on HumanML3D and KIT-ML show that our method outperforms state-of-the-art text-motion retrieval approaches while offering interpretable fine-grained correspondences between text and motion. The code is available in the supplementary material.