ChatPaper.aiChatPaper

Comprensión de los gestos co-verbales en entornos naturales

Understanding Co-speech Gestures in-the-wild

March 28, 2025
Autores: Sindhu B Hegde, K R Prajwal, Taein Kwon, Andrew Zisserman
cs.AI

Resumen

Los gestos co-verbales desempeñan un papel crucial en la comunicación no verbal. En este artículo, presentamos un nuevo marco para la comprensión de gestos co-verbales en entornos naturales. Específicamente, proponemos tres nuevas tareas y puntos de referencia para evaluar la capacidad de un modelo para comprender las asociaciones entre gestos, texto y habla: (i) recuperación basada en gestos, (ii) detección de palabras gesticuladas y (iii) detección de hablantes activos mediante gestos. Presentamos un nuevo enfoque que aprende una representación tri-modal de habla-texto-vídeo-gesto para resolver estas tareas. Al aprovechar una combinación de pérdida contrastiva global de frases y pérdida de acoplamiento local de gestos-palabras, demostramos que se puede aprender una representación sólida de gestos de manera débilmente supervisada a partir de vídeos en entornos naturales. Nuestras representaciones aprendidas superan a métodos anteriores, incluidos los grandes modelos de visión y lenguaje (VLMs), en las tres tareas. Un análisis adicional revela que las modalidades de habla y texto capturan señales relacionadas con gestos distintas, destacando las ventajas de aprender un espacio de incrustación tri-modal compartido. El conjunto de datos, el modelo y el código están disponibles en: https://www.robots.ox.ac.uk/~vgg/research/jegal
English
Co-speech gestures play a vital role in non-verbal communication. In this paper, we introduce a new framework for co-speech gesture understanding in the wild. Specifically, we propose three new tasks and benchmarks to evaluate a model's capability to comprehend gesture-text-speech associations: (i) gesture-based retrieval, (ii) gestured word spotting, and (iii) active speaker detection using gestures. We present a new approach that learns a tri-modal speech-text-video-gesture representation to solve these tasks. By leveraging a combination of global phrase contrastive loss and local gesture-word coupling loss, we demonstrate that a strong gesture representation can be learned in a weakly supervised manner from videos in the wild. Our learned representations outperform previous methods, including large vision-language models (VLMs), across all three tasks. Further analysis reveals that speech and text modalities capture distinct gesture-related signals, underscoring the advantages of learning a shared tri-modal embedding space. The dataset, model, and code are available at: https://www.robots.ox.ac.uk/~vgg/research/jegal

Summary

AI-Generated Summary

PDF12April 1, 2025