Anclajes Semánticos de Movimiento: Estableciendo un Puente entre el Movimiento y el Significado en los Gestos Co-Verbales

Resumen

Aprender una representación compartida entre el texto hablado y el gesto es fundamental para la recuperación, síntesis y comprensión de gestos co-verbales, pero sigue siendo un desafío en el caso de gestos semánticamente significativos, cuyo propósito comunicativo no se captura únicamente mediante el movimiento. El alineamiento contrastivo directo entre transcripciones y representaciones continuas del movimiento tiende a sobredimensionar la cinemática de bajo nivel y pasa por alto el contenido simbólico de los gestos semánticos. Proponemos los anclajes semánticos de movimiento, abstracciones en lenguaje natural del movimiento gestual que capturan tanto la forma física como la intención comunicativa. Nuestro método discretiza gestos 3D en primitivas de movimiento cuerpo-mano, las verbaliza en descripciones estructuradas y las fundamenta en la transcripción para proporcionar una supervisión contrastiva auxiliar. En BEAT2, nuestro método mejora el R@1 de texto a gesto en un 8,2 % con respecto a una línea base directa de texto-movimiento, y supera a enfoques previos de recuperación tanto en la dirección de texto a gesto como de gesto a texto. Más allá de las métricas agregadas de recuperación, la supervisión mediante anclajes semánticos de movimiento ayuda a recuperar gestos que son semánticamente significativos para la consulta hablada, en lugar de recurrir a patrones de movimiento genéricos. Un estudio posterior de generación de gestos aumentada por recuperación mostró que los usuarios prefirieron significativamente los gestos recuperados por nuestro enfoque frente a una línea base de generación aumentada por recuperación, lo que demuestra que una recuperación fundamentada semánticamente se traduce en gestos que transmiten mejor la intención comunicativa en la generación descendente.

English

Learning a shared representation between spoken text and gesture is central to co-speech gesture retrieval, synthesis, and understanding, but remains challenging for semantically meaningful gestures whose communicative intent is not captured by motion alone. Direct contrastive alignment between transcripts and continuous motion embeddings often overemphasizes low-level kinematics and misses the symbolic content of semantic gestures. We propose semantic motion anchors, natural-language abstractions of gesture motion capturing physical form and communicative intent. Our method discretizes 3D gestures into body-hand motion primitives, verbalizes them into structured descriptions, and grounds them in the transcript to provide auxiliary contrastive supervision. On BEAT2, our method improves text-to-gesture R@1 by 8.2% over a direct text-motion baseline and outperforms prior retrieval approaches on text to gesture and gesture to text retrieval directions. Beyond aggregate retrieval metrics, semantic motion anchor supervision helps retrieve gestures that are semantically meaningful for the spoken query, rather than defaulting to generic motion patterns. A downstream retrieval-augmented gesture generation study showed that users significantly preferred gestures retrieved by our approach over a retrieval-augmented generation baseline, demonstrating that semantically grounded retrieval translates to gestures that better convey communicative intent in downstream generation.