ChatPaper.aiChatPaper

Comprendre les gestes co-verbaux en contexte naturel

Understanding Co-speech Gestures in-the-wild

March 28, 2025
Auteurs: Sindhu B Hegde, K R Prajwal, Taein Kwon, Andrew Zisserman
cs.AI

Résumé

Les gestes co-verbaux jouent un rôle essentiel dans la communication non verbale. Dans cet article, nous introduisons un nouveau cadre pour la compréhension des gestes co-verbaux en conditions réelles. Plus précisément, nous proposons trois nouvelles tâches et benchmarks pour évaluer la capacité d'un modèle à comprendre les associations entre gestes, texte et parole : (i) la recherche basée sur les gestes, (ii) la détection de mots gestuels, et (iii) la détection de locuteur actif à l'aide des gestes. Nous présentons une nouvelle approche qui apprend une représentation tri-modale parole-texte-vidéo-gestes pour résoudre ces tâches. En exploitant une combinaison de perte contrastive globale de phrases et de perte de couplage locale geste-mot, nous démontrons qu'une représentation robuste des gestes peut être apprise de manière faiblement supervisée à partir de vidéos en conditions réelles. Nos représentations apprises surpassent les méthodes précédentes, y compris les grands modèles vision-langage (VLMs), sur les trois tâches. Une analyse approfondie révèle que les modalités parole et texte capturent des signaux distincts liés aux gestes, mettant en évidence les avantages de l'apprentissage d'un espace d'embedding tri-modal partagé. Le jeu de données, le modèle et le code sont disponibles à l'adresse : https://www.robots.ox.ac.uk/~vgg/research/jegal
English
Co-speech gestures play a vital role in non-verbal communication. In this paper, we introduce a new framework for co-speech gesture understanding in the wild. Specifically, we propose three new tasks and benchmarks to evaluate a model's capability to comprehend gesture-text-speech associations: (i) gesture-based retrieval, (ii) gestured word spotting, and (iii) active speaker detection using gestures. We present a new approach that learns a tri-modal speech-text-video-gesture representation to solve these tasks. By leveraging a combination of global phrase contrastive loss and local gesture-word coupling loss, we demonstrate that a strong gesture representation can be learned in a weakly supervised manner from videos in the wild. Our learned representations outperform previous methods, including large vision-language models (VLMs), across all three tasks. Further analysis reveals that speech and text modalities capture distinct gesture-related signals, underscoring the advantages of learning a shared tri-modal embedding space. The dataset, model, and code are available at: https://www.robots.ox.ac.uk/~vgg/research/jegal

Summary

AI-Generated Summary

PDF12April 1, 2025