Os Modelos de Visão e Linguagem Podem Responder a Perguntas Face a Face no Mundo Real?
Can Vision-Language Models Answer Face to Face Questions in the Real-World?
March 25, 2025
Autores: Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic
cs.AI
Resumo
Modelos de IA têm feito avanços significativos nos últimos anos em sua capacidade de descrever e responder a perguntas sobre imagens do mundo real. Eles também progrediram na capacidade de conversar com usuários em tempo real usando entrada de áudio. Isso levanta a questão: chegamos ao ponto em que modelos de IA, conectados a uma câmera e microfone, podem conversar com usuários em tempo real sobre cenas e eventos que estão se desenrolando ao vivo em frente à câmera? Esse tem sido um objetivo de longa data na IA e é um pré-requisito para que assistentes de IA do mundo real e robôs humanoides interajam com humanos em situações cotidianas. Neste trabalho, introduzimos um novo conjunto de dados e benchmark, o Qualcomm Interactive Video Dataset (IVD), que nos permite avaliar até que ponto os modelos existentes podem suportar essas habilidades e em que medida essas capacidades podem ser desenvolvidas por meio de ajuste fino. O conjunto de dados é baseado em uma configuração simples de perguntas e respostas, onde os usuários fazem perguntas que o sistema deve responder, em tempo real, com base na entrada da câmera e do áudio. Mostramos que os modelos existentes ficam muito aquém do desempenho humano nessa tarefa e identificamos as principais fontes dessa lacuna de desempenho. No entanto, também mostramos que, para muitas das habilidades perceptivas necessárias, o ajuste fino com esse tipo de dados pode reduzir significativamente essa lacuna.
English
AI models have made significant strides in recent years in their ability to
describe and answer questions about real-world images. They have also made
progress in the ability to converse with users in real-time using audio input.
This raises the question: have we reached the point where AI models, connected
to a camera and microphone, can converse with users in real-time about scenes
and events that are unfolding live in front of the camera? This has been a
long-standing goal in AI and is a prerequisite for real-world AI assistants and
humanoid robots to interact with humans in everyday situations. In this work,
we introduce a new dataset and benchmark, the Qualcomm Interactive Video
Dataset (IVD), which allows us to assess the extent to which existing models
can support these abilities, and to what degree these capabilities can be
instilled through fine-tuning. The dataset is based on a simple
question-answering setup, where users ask questions that the system has to
answer, in real-time, based on the camera and audio input. We show that
existing models fall far behind human performance on this task, and we identify
the main sources for the performance gap. However, we also show that for many
of the required perceptual skills, fine-tuning on this form of data can
significantly reduce this gap.Summary
AI-Generated Summary