Semantische Bewegingsankers: Het Overbruggen van Beweging en Betekenis in Co-Speech Gebaren

Samenvatting

Het leren van een gedeelde representatie tussen gesproken tekst en gebaar staat centraal in de retrieval, synthese en het begrip van co-speech gebaren, maar blijft uitdagend voor semantisch betekenisvolle gebaren waarvan de communicatieve intentie niet alleen door beweging wordt vastgelegd. Directe contrastieve uitlijning tussen transcripten en continue bewegingsinbeddingen benadrukt vaak te veel de laag-niveau kinematica en mist de symbolische inhoud van semantische gebaren. Wij stellen semantische bewegingsankers voor, natuurlijke-taalabstracties van gebaarbeweging die zowel fysieke vorm als communicatieve intentie vastleggen. Onze methode discretiseert 3D-gebaren in lichaam-hand bewegingsprimitieven, verbaliseert deze in gestructureerde beschrijvingen en grondt ze in het transcript om auxiliaire contrastieve supervisie te bieden. Op BEAT2 verbetert onze methode de text-naar-gebaar R@1 met 8,2% ten opzichte van een directe tekst-beweging baseline en overtreft het eerdere retrieval-benaderingen op de retrievalrichtingen tekst naar gebaar en gebaar naar tekst. Naast geaggregeerde retrieval-metrics helpt supervisie met semantische bewegingsankers om gebaren te retrieven die semantisch betekenisvol zijn voor de gesproken query, in plaats van terug te vallen op generieke bewegingspatronen. Een stroomafwaartse retrieval-versterkte gebaar generatiestudie toonde aan dat gebruikers significant de voorkeur gaven aan gebaren die door onze aanpak waren opgehaald boven een retrieval-versterkte generatie baseline, wat aantoont dat semantisch gegronde retrieval leidt tot gebaren die de communicatieve intentie beter overbrengen in stroomafwaartse generatie.

English

Learning a shared representation between spoken text and gesture is central to co-speech gesture retrieval, synthesis, and understanding, but remains challenging for semantically meaningful gestures whose communicative intent is not captured by motion alone. Direct contrastive alignment between transcripts and continuous motion embeddings often overemphasizes low-level kinematics and misses the symbolic content of semantic gestures. We propose semantic motion anchors, natural-language abstractions of gesture motion capturing physical form and communicative intent. Our method discretizes 3D gestures into body-hand motion primitives, verbalizes them into structured descriptions, and grounds them in the transcript to provide auxiliary contrastive supervision. On BEAT2, our method improves text-to-gesture R@1 by 8.2% over a direct text-motion baseline and outperforms prior retrieval approaches on text to gesture and gesture to text retrieval directions. Beyond aggregate retrieval metrics, semantic motion anchor supervision helps retrieve gestures that are semantically meaningful for the spoken query, rather than defaulting to generic motion patterns. A downstream retrieval-augmented gesture generation study showed that users significantly preferred gestures retrieved by our approach over a retrieval-augmented generation baseline, demonstrating that semantically grounded retrieval translates to gestures that better convey communicative intent in downstream generation.