Могут ли модели "зрение-язык" отвечать на вопросы лицом к лицу в реальном мире?
Can Vision-Language Models Answer Face to Face Questions in the Real-World?
March 25, 2025
Авторы: Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic
cs.AI
Аннотация
Модели ИИ в последние годы достигли значительных успехов в способности описывать и отвечать на вопросы о реальных изображениях. Они также продвинулись в возможности вести диалог с пользователями в реальном времени с использованием аудиовхода. Это поднимает вопрос: достигли ли мы точки, где модели ИИ, подключенные к камере и микрофону, могут общаться с пользователями в реальном времени о сценах и событиях, которые разворачиваются перед камерой? Это долгосрочная цель в области ИИ и необходимое условие для того, чтобы ассистенты на основе ИИ и человекоподобные роботы могли взаимодействовать с людьми в повседневных ситуациях. В данной работе мы представляем новый набор данных и эталонный тест — Interactive Video Dataset (IVD) от Qualcomm, который позволяет оценить, в какой степени существующие модели способны поддерживать эти функции, и насколько эти возможности могут быть улучшены с помощью тонкой настройки. Набор данных основан на простой схеме вопросов и ответов, где пользователи задают вопросы, на которые система должна отвечать в реальном времени на основе данных с камеры и аудиовхода. Мы показываем, что существующие модели значительно отстают от человеческой производительности в этой задаче, и определяем основные причины этого отставания. Однако мы также демонстрируем, что для многих необходимых перцептивных навыков тонкая настройка на таких данных может существенно сократить этот разрыв.
English
AI models have made significant strides in recent years in their ability to
describe and answer questions about real-world images. They have also made
progress in the ability to converse with users in real-time using audio input.
This raises the question: have we reached the point where AI models, connected
to a camera and microphone, can converse with users in real-time about scenes
and events that are unfolding live in front of the camera? This has been a
long-standing goal in AI and is a prerequisite for real-world AI assistants and
humanoid robots to interact with humans in everyday situations. In this work,
we introduce a new dataset and benchmark, the Qualcomm Interactive Video
Dataset (IVD), which allows us to assess the extent to which existing models
can support these abilities, and to what degree these capabilities can be
instilled through fine-tuning. The dataset is based on a simple
question-answering setup, where users ask questions that the system has to
answer, in real-time, based on the camera and audio input. We show that
existing models fall far behind human performance on this task, and we identify
the main sources for the performance gap. However, we also show that for many
of the required perceptual skills, fine-tuning on this form of data can
significantly reduce this gap.Summary
AI-Generated Summary