Семантические якоря движения: связывание движения и значения в жестах, сопровождающих речь

Аннотация

Обучение совместному представлению между произнесенным текстом и жестами является ключевым для поиска, синтеза и понимания жестов, сопровождающих речь, но остается сложной задачей для семантически значимых жестов, коммуникативное намерение которых не передается только движением. Прямое контрастное выравнивание между транскриптами и непрерывными эмбеддингами движения часто чрезмерно акцентирует внимание на низкоуровневой кинематике и упускает символическое содержание семантических жестов. Мы предлагаем семантические якоря движения — абстракции жестового движения на естественном языке, отражающие физическую форму и коммуникативное намерение. Наш метод дискретизирует трехмерные жесты на двигательные примитивы тела и рук, вербализует их в структурированные описания и привязывает их к транскрипту для предоставления вспомогательного контрастного контроля. На наборе данных BEAT2 наш метод улучшает R@1 для поиска текста по жесту на 8,2% по сравнению с базовым подходом прямого выравнивания текста и движения и превосходит предыдущие методы поиска как в направлении «текст → жест», так и «жест → текст». Помимо агрегированных метрик поиска, контроль семантических якорей движения помогает извлекать жесты, семантически значимые для произнесенного запроса, а не возвращаться к общим паттернам движения. Последующее исследование генерации жестов с поисковым улучшением показало, что пользователи значительно предпочитают жесты, найденные нашим подходом, по сравнению с базовым методом генерации с поисковым улучшением, что демонстрирует: семантически обоснованный поиск приводит к жестам, лучше передающим коммуникативное намерение в последующей генерации.

English

Learning a shared representation between spoken text and gesture is central to co-speech gesture retrieval, synthesis, and understanding, but remains challenging for semantically meaningful gestures whose communicative intent is not captured by motion alone. Direct contrastive alignment between transcripts and continuous motion embeddings often overemphasizes low-level kinematics and misses the symbolic content of semantic gestures. We propose semantic motion anchors, natural-language abstractions of gesture motion capturing physical form and communicative intent. Our method discretizes 3D gestures into body-hand motion primitives, verbalizes them into structured descriptions, and grounds them in the transcript to provide auxiliary contrastive supervision. On BEAT2, our method improves text-to-gesture R@1 by 8.2% over a direct text-motion baseline and outperforms prior retrieval approaches on text to gesture and gesture to text retrieval directions. Beyond aggregate retrieval metrics, semantic motion anchor supervision helps retrieve gestures that are semantically meaningful for the spoken query, rather than defaulting to generic motion patterns. A downstream retrieval-augmented gesture generation study showed that users significantly preferred gestures retrieved by our approach over a retrieval-augmented generation baseline, demonstrating that semantically grounded retrieval translates to gestures that better convey communicative intent in downstream generation.