¿Pueden los modelos de visión y lenguaje responder preguntas cara a cara en el mundo real?
Can Vision-Language Models Answer Face to Face Questions in the Real-World?
March 25, 2025
Autores: Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic
cs.AI
Resumen
Los modelos de IA han logrado avances significativos en los últimos años en su capacidad para describir y responder preguntas sobre imágenes del mundo real. También han progresado en la habilidad de conversar con usuarios en tiempo real utilizando entrada de audio. Esto plantea la pregunta: ¿hemos llegado al punto en que los modelos de IA, conectados a una cámara y un micrófono, pueden conversar con usuarios en tiempo real sobre escenas y eventos que se desarrollan en vivo frente a la cámara? Este ha sido un objetivo de larga data en la IA y es un requisito previo para que los asistentes de IA del mundo real y los robots humanoides interactúen con los humanos en situaciones cotidianas. En este trabajo, presentamos un nuevo conjunto de datos y punto de referencia, el Conjunto de Datos de Video Interactivo de Qualcomm (IVD), que nos permite evaluar hasta qué punto los modelos existentes pueden respaldar estas habilidades y en qué medida estas capacidades pueden ser desarrolladas mediante ajustes finos. El conjunto de datos se basa en una configuración simple de preguntas y respuestas, donde los usuarios hacen preguntas que el sistema debe responder, en tiempo real, basándose en la entrada de la cámara y el audio. Demostramos que los modelos existentes están muy por detrás del rendimiento humano en esta tarea e identificamos las principales fuentes de esta brecha de rendimiento. Sin embargo, también mostramos que, para muchas de las habilidades perceptivas requeridas, el ajuste fino con este tipo de datos puede reducir significativamente esta brecha.
English
AI models have made significant strides in recent years in their ability to
describe and answer questions about real-world images. They have also made
progress in the ability to converse with users in real-time using audio input.
This raises the question: have we reached the point where AI models, connected
to a camera and microphone, can converse with users in real-time about scenes
and events that are unfolding live in front of the camera? This has been a
long-standing goal in AI and is a prerequisite for real-world AI assistants and
humanoid robots to interact with humans in everyday situations. In this work,
we introduce a new dataset and benchmark, the Qualcomm Interactive Video
Dataset (IVD), which allows us to assess the extent to which existing models
can support these abilities, and to what degree these capabilities can be
instilled through fine-tuning. The dataset is based on a simple
question-answering setup, where users ask questions that the system has to
answer, in real-time, based on the camera and audio input. We show that
existing models fall far behind human performance on this task, and we identify
the main sources for the performance gap. However, we also show that for many
of the required perceptual skills, fine-tuning on this form of data can
significantly reduce this gap.Summary
AI-Generated Summary