Понимание сопутствующих речи жестов в естественных условиях
Understanding Co-speech Gestures in-the-wild
March 28, 2025
Авторы: Sindhu B Hegde, K R Prajwal, Taein Kwon, Andrew Zisserman
cs.AI
Аннотация
Сопровождающие речь жесты играют важную роль в невербальной коммуникации. В данной статье мы представляем новую концепцию для понимания таких жестов в естественных условиях. В частности, мы предлагаем три новые задачи и эталоны для оценки способности модели понимать взаимосвязи между жестами, текстом и речью: (i) поиск на основе жестов, (ii) обнаружение слов, сопровождаемых жестами, и (iii) определение активного говорящего с использованием жестов. Мы предлагаем новый подход, который обучает трехмодальное представление речь-текст-видео-жесты для решения этих задач. Используя комбинацию глобального контрастного потерь для фраз и локального потерь связи жестов и слов, мы демонстрируем, что сильное представление жестов может быть обучено в слабо контролируемом режиме на основе видео в естественных условиях. Наши обученные представления превосходят предыдущие методы, включая крупные модели визуального языка (VLMs), во всех трех задачах. Дополнительный анализ показывает, что модальности речи и текста захватывают различные сигналы, связанные с жестами, подчеркивая преимущества обучения общего трехмодального пространства вложений. Набор данных, модель и код доступны по адресу: https://www.robots.ox.ac.uk/~vgg/research/jegal.
English
Co-speech gestures play a vital role in non-verbal communication. In this
paper, we introduce a new framework for co-speech gesture understanding in the
wild. Specifically, we propose three new tasks and benchmarks to evaluate a
model's capability to comprehend gesture-text-speech associations: (i)
gesture-based retrieval, (ii) gestured word spotting, and (iii) active speaker
detection using gestures. We present a new approach that learns a tri-modal
speech-text-video-gesture representation to solve these tasks. By leveraging a
combination of global phrase contrastive loss and local gesture-word coupling
loss, we demonstrate that a strong gesture representation can be learned in a
weakly supervised manner from videos in the wild. Our learned representations
outperform previous methods, including large vision-language models (VLMs),
across all three tasks. Further analysis reveals that speech and text
modalities capture distinct gesture-related signals, underscoring the
advantages of learning a shared tri-modal embedding space. The dataset, model,
and code are available at: https://www.robots.ox.ac.uk/~vgg/research/jegalSummary
AI-Generated Summary