Ancres sémantiques de mouvement : relier le mouvement et le sens dans les gestes co-parlés

Résumé

Apprendre une représentation partagée entre le texte parlé et le geste est central pour la récupération, la synthèse et la compréhension des gestes co-parlés, mais reste difficile pour les gestes sémantiquement significatifs dont l'intention communicative n'est pas capturée par le seul mouvement. L'alignement contrastif direct entre les transcriptions et les plongements continus de mouvement surestime souvent la cinématique de bas niveau et manque le contenu symbolique des gestes sémantiques. Nous proposons des ancres de mouvement sémantiques, des abstractions en langage naturel du mouvement gestuel capturant la forme physique et l'intention communicative. Notre méthode discrétise les gestes 3D en primitives de mouvement corps-main, les verbalise en descriptions structurées et les ancre dans la transcription pour fournir une supervision contrastive auxiliaire. Sur BEAT2, notre méthode améliore le R@1 texte-à-geste de 8,2 % par rapport à une ligne de base directe texte-mouvement et surpasse les approches de récupération antérieures dans les directions de récupération texte-à-geste et geste-à-texte. Au-delà des métriques de récupération agrégées, la supervision par ancres de mouvement sémantiques aide à récupérer des gestes sémantiquement significatifs pour la requête parlée, plutôt que de se rabattre sur des motifs de mouvement génériques. Une étude en aval de génération de gestes augmentée par récupération a montré que les utilisateurs préféraient significativement les gestes récupérés par notre approche par rapport à une ligne de base de génération augmentée par récupération, démontrant qu'une récupération sémantiquement ancrée se traduit par des gestes qui transmettent mieux l'intention communicative dans la génération en aval.

English

Learning a shared representation between spoken text and gesture is central to co-speech gesture retrieval, synthesis, and understanding, but remains challenging for semantically meaningful gestures whose communicative intent is not captured by motion alone. Direct contrastive alignment between transcripts and continuous motion embeddings often overemphasizes low-level kinematics and misses the symbolic content of semantic gestures. We propose semantic motion anchors, natural-language abstractions of gesture motion capturing physical form and communicative intent. Our method discretizes 3D gestures into body-hand motion primitives, verbalizes them into structured descriptions, and grounds them in the transcript to provide auxiliary contrastive supervision. On BEAT2, our method improves text-to-gesture R@1 by 8.2% over a direct text-motion baseline and outperforms prior retrieval approaches on text to gesture and gesture to text retrieval directions. Beyond aggregate retrieval metrics, semantic motion anchor supervision helps retrieve gestures that are semantically meaningful for the spoken query, rather than defaulting to generic motion patterns. A downstream retrieval-augmented gesture generation study showed that users significantly preferred gestures retrieved by our approach over a retrieval-augmented generation baseline, demonstrating that semantically grounded retrieval translates to gestures that better convey communicative intent in downstream generation.