Âncoras semânticas de movimento: Unindo movimento e significado em gestos co-fala

Resumo

Aprender uma representação compartilhada entre texto falado e gesto é central para a recuperação, síntese e compreensão de gestos co-fala, mas continua sendo desafiador para gestos semanticamente significativos, cuja intenção comunicativa não é capturada apenas pelo movimento. O alinhamento contrastivo direto entre transcrições e embeddings contínuos de movimento frequentemente superenfatiza a cinemática de baixo nível e perde o conteúdo simbólico dos gestos semânticos. Propomos âncoras semânticas de movimento, abstrações em linguagem natural do gesto que capturam a forma física e a intenção comunicativa. Nosso método discretiza gestos 3D em primitivas de movimento corpo-mão, verbaliza-as em descrições estruturadas e as ancora na transcrição para fornecer supervisão contrastiva auxiliar. No BEAT2, nosso método melhora o R@1 de texto para gesto em 8,2% em relação a uma linha de base direta de texto-movimento e supera abordagens anteriores de recuperação nas direções de recuperação de texto para gesto e gesto para texto. Além das métricas agregadas de recuperação, a supervisão por âncoras semânticas de movimento ajuda a recuperar gestos semanticamente significativos para a consulta falada, em vez de recorrer a padrões genéricos de movimento. Um estudo de geração de gestos aumentada por recuperação mostrou que os usuários preferiram significativamente os gestos recuperados pela nossa abordagem em comparação com uma linha de base de geração aumentada por recuperação, demonstrando que a recuperação semanticamente fundamentada se traduz em gestos que transmitem melhor a intenção comunicativa na geração subsequente.

English

Learning a shared representation between spoken text and gesture is central to co-speech gesture retrieval, synthesis, and understanding, but remains challenging for semantically meaningful gestures whose communicative intent is not captured by motion alone. Direct contrastive alignment between transcripts and continuous motion embeddings often overemphasizes low-level kinematics and misses the symbolic content of semantic gestures. We propose semantic motion anchors, natural-language abstractions of gesture motion capturing physical form and communicative intent. Our method discretizes 3D gestures into body-hand motion primitives, verbalizes them into structured descriptions, and grounds them in the transcript to provide auxiliary contrastive supervision. On BEAT2, our method improves text-to-gesture R@1 by 8.2% over a direct text-motion baseline and outperforms prior retrieval approaches on text to gesture and gesture to text retrieval directions. Beyond aggregate retrieval metrics, semantic motion anchor supervision helps retrieve gestures that are semantically meaningful for the spoken query, rather than defaulting to generic motion patterns. A downstream retrieval-augmented gesture generation study showed that users significantly preferred gestures retrieved by our approach over a retrieval-augmented generation baseline, demonstrating that semantically grounded retrieval translates to gestures that better convey communicative intent in downstream generation.