Verstehen von begleitenden Gesten in natürlichen Umgebungen
Understanding Co-speech Gestures in-the-wild
March 28, 2025
Autoren: Sindhu B Hegde, K R Prajwal, Taein Kwon, Andrew Zisserman
cs.AI
Zusammenfassung
Co-Speech-Gesten spielen eine entscheidende Rolle in der nonverbalen Kommunikation. In diesem Artikel stellen wir ein neues Framework zum Verständnis von Co-Speech-Gesten in natürlichen Umgebungen vor. Konkret schlagen wir drei neue Aufgaben und Benchmarks vor, um die Fähigkeit eines Modells zu bewerten, die Zusammenhänge zwischen Gesten, Text und Sprache zu erfassen: (i) gestenbasierte Retrieval, (ii) Erkennung von gestikulierten Wörtern und (iii) aktive Sprechererkennung unter Verwendung von Gesten. Wir präsentieren einen neuen Ansatz, der eine tri-modale Repräsentation von Sprache, Text, Video und Gesten lernt, um diese Aufgaben zu lösen. Durch die Nutzung einer Kombination aus globalem Phrasen-Kontrastverlust und lokalem Gesten-Wort-Kopplungsverlust zeigen wir, dass eine starke Gestenrepräsentation in schwach überwachter Weise aus Videos in natürlichen Umgebungen gelernt werden kann. Unsere gelernten Repräsentationen übertreffen bisherige Methoden, einschließlich großer Vision-Language-Modelle (VLMs), in allen drei Aufgaben. Eine weitere Analyse zeigt, dass die Sprach- und Textmodalitäten unterschiedliche gestenbezogene Signale erfassen, was die Vorteile des Lernens eines gemeinsamen tri-modalen Einbettungsraums unterstreicht. Das Dataset, das Modell und der Code sind verfügbar unter: https://www.robots.ox.ac.uk/~vgg/research/jegal.
English
Co-speech gestures play a vital role in non-verbal communication. In this
paper, we introduce a new framework for co-speech gesture understanding in the
wild. Specifically, we propose three new tasks and benchmarks to evaluate a
model's capability to comprehend gesture-text-speech associations: (i)
gesture-based retrieval, (ii) gestured word spotting, and (iii) active speaker
detection using gestures. We present a new approach that learns a tri-modal
speech-text-video-gesture representation to solve these tasks. By leveraging a
combination of global phrase contrastive loss and local gesture-word coupling
loss, we demonstrate that a strong gesture representation can be learned in a
weakly supervised manner from videos in the wild. Our learned representations
outperform previous methods, including large vision-language models (VLMs),
across all three tasks. Further analysis reveals that speech and text
modalities capture distinct gesture-related signals, underscoring the
advantages of learning a shared tri-modal embedding space. The dataset, model,
and code are available at: https://www.robots.ox.ac.uk/~vgg/research/jegalSummary
AI-Generated Summary