ChatPaper.aiChatPaper

Kunnen Vision-Taalmodellen Face-to-Face Vragen in de Echte Wereld Beantwoorden?

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

March 25, 2025
Auteurs: Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic
cs.AI

Samenvatting

AI-modellen hebben de afgelopen jaren aanzienlijke vooruitgang geboekt in hun vermogen om real-world afbeeldingen te beschrijven en vragen daarover te beantwoorden. Ze hebben ook vooruitgang geboekt in het vermogen om in real-time met gebruikers te converseren via audio-invoer. Dit roept de vraag op: zijn we op het punt aangekomen waar AI-modellen, verbonden met een camera en microfoon, in real-time kunnen converseren met gebruikers over scènes en gebeurtenissen die live voor de camera plaatsvinden? Dit is een langetermijndoel in AI en een voorwaarde voor real-world AI-assistenten en humanoïde robots om in alledaagse situaties met mensen te interacteren. In dit werk introduceren we een nieuwe dataset en benchmark, het Qualcomm Interactive Video Dataset (IVD), waarmee we kunnen beoordelen in hoeverre bestaande modellen deze vaardigheden kunnen ondersteunen, en in welke mate deze capaciteiten kunnen worden aangeleerd via fine-tuning. De dataset is gebaseerd op een eenvoudige vraag-antwoordopzet, waarbij gebruikers vragen stellen die het systeem in real-time moet beantwoorden op basis van de camera- en audio-invoer. We laten zien dat bestaande modellen ver achterblijven bij menselijke prestaties bij deze taak, en we identificeren de belangrijkste bronnen van deze prestatiekloof. Echter, we tonen ook aan dat voor veel van de vereiste perceptuele vaardigheden fine-tuning op dit type data deze kloof aanzienlijk kan verkleinen.
English
AI models have made significant strides in recent years in their ability to describe and answer questions about real-world images. They have also made progress in the ability to converse with users in real-time using audio input. This raises the question: have we reached the point where AI models, connected to a camera and microphone, can converse with users in real-time about scenes and events that are unfolding live in front of the camera? This has been a long-standing goal in AI and is a prerequisite for real-world AI assistants and humanoid robots to interact with humans in everyday situations. In this work, we introduce a new dataset and benchmark, the Qualcomm Interactive Video Dataset (IVD), which allows us to assess the extent to which existing models can support these abilities, and to what degree these capabilities can be instilled through fine-tuning. The dataset is based on a simple question-answering setup, where users ask questions that the system has to answer, in real-time, based on the camera and audio input. We show that existing models fall far behind human performance on this task, and we identify the main sources for the performance gap. However, we also show that for many of the required perceptual skills, fine-tuning on this form of data can significantly reduce this gap.

Summary

AI-Generated Summary

PDF22March 26, 2025