Точное извлечение движений с помощью совместно-угловых изображений движений и позднего взаимодействия токен-патчей
Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction
March 10, 2026
Авторы: Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao
cs.AI
Аннотация
Задача поиска по тексту и движению (text-motion retrieval) заключается в изучении семантически согласованного латентного пространства между естественно-языковыми описаниями и последовательностями скелетных моделей 3D-движения человека, что позволяет осуществлять двунаправленный поиск по двум модальностям. Большинство существующих методов используют двухэнкодерную архитектуру, которая сжимает движение и текст в глобальные эмбеддинги, отбрасывая тонкие локальные соответствия, что снижает точность. Кроме того, эти методы на основе глобальных эмбеддингов предлагают ограниченную интерпретируемость результатов поиска. Чтобы преодолеть эти ограничения, мы предлагаем интерпретируемое представление движения на основе углов в сочленениях, которое отображает локальные признаки на уровне суставов в структурированное псевдоизображение, совместимое с предварительно обученными Vision Transformer. Для поиска движения по тексту мы используем MaxSim — механизм позднего взаимодействия на уровне токенов — и улучшаем его с помощью регуляризации Masked Language Modeling для формирования устойчивого и интерпретируемого согласования текста и движения. Многочисленные эксперименты на наборах данных HumanML3D и KIT-ML показывают, что наш метод превосходит современные подходы к поиску по тексту и движению, обеспечивая при этом интерпретируемые тонкие соответствия между текстом и движением. Код доступен в дополнительных материалах.
English
Text-motion retrieval aims to learn a semantically aligned latent space between natural language descriptions and 3D human motion skeleton sequences, enabling bidirectional search across the two modalities. Most existing methods use a dual-encoder framework that compresses motion and text into global embeddings, discarding fine-grained local correspondences, and thus reducing accuracy. Additionally, these global-embedding methods offer limited interpretability of the retrieval results. To overcome these limitations, we propose an interpretable, joint-angle-based motion representation that maps joint-level local features into a structured pseudo-image, compatible with pre-trained Vision Transformers. For text-to-motion retrieval, we employ MaxSim, a token-wise late interaction mechanism, and enhance it with Masked Language Modeling regularization to foster robust, interpretable text-motion alignment. Extensive experiments on HumanML3D and KIT-ML show that our method outperforms state-of-the-art text-motion retrieval approaches while offering interpretable fine-grained correspondences between text and motion. The code is available in the supplementary material.