비전-언어 모델은 현실 세계에서 얼굴 대 얼굴 질문에 답할 수 있는가?
Can Vision-Language Models Answer Face to Face Questions in the Real-World?
March 25, 2025
저자: Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic
cs.AI
초록
최근 몇 년 동안 AI 모델은 실세계 이미지를 설명하고 이에 대한 질문에 답변하는 능력에서 상당한 진전을 이루었습니다. 또한 오디오 입력을 사용하여 실시간으로 사용자와 대화하는 능력에서도 발전을 거두었습니다. 이는 다음과 같은 질문을 제기합니다: 카메라와 마이크에 연결된 AI 모델이 카메라 앞에서 실시간으로 펼쳐지는 장면과 사건에 대해 사용자와 실시간으로 대화할 수 있는 수준에 도달했는가? 이는 AI 분야에서 오랜 목표였으며, 실세계 AI 어시스턴트와 휴머노이드 로봇이 일상적인 상황에서 인간과 상호작용하기 위한 전제 조건입니다. 본 연구에서는 새로운 데이터셋과 벤치마크인 퀄컴 인터랙티브 비디오 데이터셋(IVD)을 소개합니다. 이를 통해 기존 모델이 이러한 능력을 어느 정도 지원할 수 있는지, 그리고 이러한 능력을 미세 조정을 통해 어느 정도까지 향상시킬 수 있는지 평가할 수 있습니다. 이 데이터셋은 사용자가 질문을 하고 시스템이 카메라와 오디오 입력을 기반으로 실시간으로 답변해야 하는 간단한 질문-답변 설정을 기반으로 합니다. 우리는 기존 모델이 이 작업에서 인간의 성능에 크게 뒤처지는 것을 보여주고, 성능 격차의 주요 원인을 식별합니다. 그러나 필요한 많은 인지 능력에 대해 이러한 형태의 데이터로 미세 조정을 수행하면 이 격차를 상당히 줄일 수 있음을 보여줍니다.
English
AI models have made significant strides in recent years in their ability to
describe and answer questions about real-world images. They have also made
progress in the ability to converse with users in real-time using audio input.
This raises the question: have we reached the point where AI models, connected
to a camera and microphone, can converse with users in real-time about scenes
and events that are unfolding live in front of the camera? This has been a
long-standing goal in AI and is a prerequisite for real-world AI assistants and
humanoid robots to interact with humans in everyday situations. In this work,
we introduce a new dataset and benchmark, the Qualcomm Interactive Video
Dataset (IVD), which allows us to assess the extent to which existing models
can support these abilities, and to what degree these capabilities can be
instilled through fine-tuning. The dataset is based on a simple
question-answering setup, where users ask questions that the system has to
answer, in real-time, based on the camera and audio input. We show that
existing models fall far behind human performance on this task, and we identify
the main sources for the performance gap. However, we also show that for many
of the required perceptual skills, fine-tuning on this form of data can
significantly reduce this gap.Summary
AI-Generated Summary