Les modèles vision-langage peuvent-ils répondre à des questions face à face dans le monde réel ?
Can Vision-Language Models Answer Face to Face Questions in the Real-World?
March 25, 2025
Auteurs: Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic
cs.AI
Résumé
Les modèles d'IA ont réalisé des progrès significatifs ces dernières années dans leur capacité à décrire et à répondre à des questions sur des images du monde réel. Ils ont également fait des avancées dans leur aptitude à converser avec les utilisateurs en temps réel à l'aide d'entrées audio. Cela soulève la question : avons-nous atteint le point où les modèles d'IA, connectés à une caméra et un microphone, peuvent converser avec les utilisateurs en temps réel sur des scènes et des événements qui se déroulent en direct devant la caméra ? Cet objectif de longue date en IA est une condition préalable pour que les assistants IA et les robots humanoïdes puissent interagir avec les humains dans des situations quotidiennes. Dans ce travail, nous introduisons un nouveau jeu de données et un benchmark, le Qualcomm Interactive Video Dataset (IVD), qui nous permet d'évaluer dans quelle mesure les modèles existants peuvent supporter ces capacités, et à quel point ces compétences peuvent être acquises par le biais du fine-tuning. Le jeu de données est basé sur une configuration simple de questions-réponses, où les utilisateurs posent des questions auxquelles le système doit répondre en temps réel, en se basant sur les entrées de la caméra et de l'audio. Nous montrons que les modèles existants sont loin derrière les performances humaines sur cette tâche, et nous identifions les principales sources de cet écart de performance. Cependant, nous montrons également que pour de nombreuses compétences perceptuelles requises, le fine-tuning sur ce type de données peut réduire considérablement cet écart.
English
AI models have made significant strides in recent years in their ability to
describe and answer questions about real-world images. They have also made
progress in the ability to converse with users in real-time using audio input.
This raises the question: have we reached the point where AI models, connected
to a camera and microphone, can converse with users in real-time about scenes
and events that are unfolding live in front of the camera? This has been a
long-standing goal in AI and is a prerequisite for real-world AI assistants and
humanoid robots to interact with humans in everyday situations. In this work,
we introduce a new dataset and benchmark, the Qualcomm Interactive Video
Dataset (IVD), which allows us to assess the extent to which existing models
can support these abilities, and to what degree these capabilities can be
instilled through fine-tuning. The dataset is based on a simple
question-answering setup, where users ask questions that the system has to
answer, in real-time, based on the camera and audio input. We show that
existing models fall far behind human performance on this task, and we identify
the main sources for the performance gap. However, we also show that for many
of the required perceptual skills, fine-tuning on this form of data can
significantly reduce this gap.Summary
AI-Generated Summary