Compreendendo Gestos Co-Verbais em Contextos Reais
Understanding Co-speech Gestures in-the-wild
March 28, 2025
Autores: Sindhu B Hegde, K R Prajwal, Taein Kwon, Andrew Zisserman
cs.AI
Resumo
Os gestos co-verbais desempenham um papel vital na comunicação não verbal. Neste artigo, introduzimos um novo framework para a compreensão de gestos co-verbais em ambientes naturais. Especificamente, propomos três novas tarefas e benchmarks para avaliar a capacidade de um modelo de compreender as associações entre gestos, texto e fala: (i) recuperação baseada em gestos, (ii) identificação de palavras gesticuladas e (iii) detecção de falante ativo usando gestos. Apresentamos uma nova abordagem que aprende uma representação tri-modal de fala-texto-vídeo-gesto para resolver essas tarefas. Ao aproveitar uma combinação de perda contrastiva global de frases e perda de acoplamento local de gesto-palavra, demonstramos que uma representação robusta de gestos pode ser aprendida de forma fracamente supervisionada a partir de vídeos em ambientes naturais. Nossas representações aprendidas superam métodos anteriores, incluindo grandes modelos de visão e linguagem (VLMs), em todas as três tarefas. Uma análise mais aprofundada revela que as modalidades de fala e texto capturam sinais distintos relacionados a gestos, destacando as vantagens de aprender um espaço de incorporação tri-modal compartilhado. O conjunto de dados, o modelo e o código estão disponíveis em: https://www.robots.ox.ac.uk/~vgg/research/jegal
English
Co-speech gestures play a vital role in non-verbal communication. In this
paper, we introduce a new framework for co-speech gesture understanding in the
wild. Specifically, we propose three new tasks and benchmarks to evaluate a
model's capability to comprehend gesture-text-speech associations: (i)
gesture-based retrieval, (ii) gestured word spotting, and (iii) active speaker
detection using gestures. We present a new approach that learns a tri-modal
speech-text-video-gesture representation to solve these tasks. By leveraging a
combination of global phrase contrastive loss and local gesture-word coupling
loss, we demonstrate that a strong gesture representation can be learned in a
weakly supervised manner from videos in the wild. Our learned representations
outperform previous methods, including large vision-language models (VLMs),
across all three tasks. Further analysis reveals that speech and text
modalities capture distinct gesture-related signals, underscoring the
advantages of learning a shared tri-modal embedding space. The dataset, model,
and code are available at: https://www.robots.ox.ac.uk/~vgg/research/jegalSummary
AI-Generated Summary