Semantische Bewegungsanker: Brücke zwischen Bewegung und Bedeutung bei Kosprachgesten

Zusammenfassung

Das Erlernen einer gemeinsamen Repräsentation zwischen gesprochenem Text und Geste ist zentral für den Abruf, die Synthese und das Verständnis von Co-Speech-Gesten, bleibt jedoch für semantisch bedeutungsvolle Gesten eine Herausforderung, deren kommunikative Absicht nicht allein durch Bewegung erfasst wird. Die direkte kontrastive Ausrichtung zwischen Transkripten und kontinuierlichen Bewegungs-Embeddings betont oft niedrigstufige Kinematik übermäßig und übersieht den symbolischen Gehalt semantischer Gesten. Wir schlagen semantische Bewegungsanker vor, Abstraktionen der Gestikbewegung in natürlicher Sprache, die physische Form und kommunikative Absicht erfassen. Unsere Methode diskretisiert 3D-Gesten in Körper-Hand-Bewegungsprimitiven, verbalisiert sie zu strukturierten Beschreibungen und verankert sie im Transkript, um eine auxiliäre kontrastive Überwachung zu ermöglichen. Auf BEAT2 verbessert unsere Methode den Text-zu-Geste R@1 um 8,2 % gegenüber einer direkten Text-Bewegungs-Baseline und übertrifft frühere Abrufansätze sowohl in der Text-zu-Geste- als auch in der Geste-zu-Text-Abrufrichtung. Über aggregierte Abrufmetriken hinaus hilft die Überwachung durch semantische Bewegungsanker dabei, Gesten abzurufen, die für die gesprochene Abfrage semantisch bedeutungsvoll sind, anstatt auf generische Bewegungsmuster zurückzugreifen. Eine nachgelagerte Studie zur abrufgestützten Gestengenerierung zeigte, dass Nutzer die mit unserem Ansatz abgerufenen Gesten signifikant gegenüber einer abrufgestützten Generierungs-Baseline bevorzugten, was belegt, dass semantisch fundiertes Retrieval zu Gesten führt, die die kommunikative Absicht in der nachgelagerten Generierung besser vermitteln.

English

Learning a shared representation between spoken text and gesture is central to co-speech gesture retrieval, synthesis, and understanding, but remains challenging for semantically meaningful gestures whose communicative intent is not captured by motion alone. Direct contrastive alignment between transcripts and continuous motion embeddings often overemphasizes low-level kinematics and misses the symbolic content of semantic gestures. We propose semantic motion anchors, natural-language abstractions of gesture motion capturing physical form and communicative intent. Our method discretizes 3D gestures into body-hand motion primitives, verbalizes them into structured descriptions, and grounds them in the transcript to provide auxiliary contrastive supervision. On BEAT2, our method improves text-to-gesture R@1 by 8.2% over a direct text-motion baseline and outperforms prior retrieval approaches on text to gesture and gesture to text retrieval directions. Beyond aggregate retrieval metrics, semantic motion anchor supervision helps retrieve gestures that are semantically meaningful for the spoken query, rather than defaulting to generic motion patterns. A downstream retrieval-augmented gesture generation study showed that users significantly preferred gestures retrieved by our approach over a retrieval-augmented generation baseline, demonstrating that semantically grounded retrieval translates to gestures that better convey communicative intent in downstream generation.