Het begrijpen van co-speech gebaren in natuurlijke omgevingen
Understanding Co-speech Gestures in-the-wild
March 28, 2025
Auteurs: Sindhu B Hegde, K R Prajwal, Taein Kwon, Andrew Zisserman
cs.AI
Samenvatting
Co-speech gebaren spelen een cruciale rol in non-verbale communicatie. In dit artikel introduceren we een nieuw raamwerk voor het begrijpen van co-speech gebaren in natuurlijke omgevingen. Specifiek stellen we drie nieuwe taken en benchmarks voor om het vermogen van een model te evalueren om gebaren-tekst-spraak associaties te begrijpen: (i) gebarengebaseerde retrievel, (ii) het herkennen van gebarende woorden, en (iii) actieve sprekerdetectie met behulp van gebaren. We presenteren een nieuwe aanpak die een tri-modale spraak-tekst-video-gebaar representatie leert om deze taken op te lossen. Door gebruik te maken van een combinatie van global phrase contrastive loss en local gesture-word coupling loss, tonen we aan dat een sterke gebarenrepresentatie op een zwak begeleide manier kan worden geleerd vanuit video's in natuurlijke omgevingen. Onze geleerde representaties overtreffen eerdere methoden, inclusief grote vision-language modellen (VLMs), in alle drie de taken. Verdere analyse toont aan dat spraak- en tekstmodaliteiten verschillende gebaren-gerelateerde signalen vastleggen, wat de voordelen benadrukt van het leren van een gedeelde tri-modale embeddingruimte. De dataset, het model en de code zijn beschikbaar op: https://www.robots.ox.ac.uk/~vgg/research/jegal.
English
Co-speech gestures play a vital role in non-verbal communication. In this
paper, we introduce a new framework for co-speech gesture understanding in the
wild. Specifically, we propose three new tasks and benchmarks to evaluate a
model's capability to comprehend gesture-text-speech associations: (i)
gesture-based retrieval, (ii) gestured word spotting, and (iii) active speaker
detection using gestures. We present a new approach that learns a tri-modal
speech-text-video-gesture representation to solve these tasks. By leveraging a
combination of global phrase contrastive loss and local gesture-word coupling
loss, we demonstrate that a strong gesture representation can be learned in a
weakly supervised manner from videos in the wild. Our learned representations
outperform previous methods, including large vision-language models (VLMs),
across all three tasks. Further analysis reveals that speech and text
modalities capture distinct gesture-related signals, underscoring the
advantages of learning a shared tri-modal embedding space. The dataset, model,
and code are available at: https://www.robots.ox.ac.uk/~vgg/research/jegalSummary
AI-Generated Summary