Os Modelos de Visão e Linguagem Podem Responder a Perguntas Face a Face no Mundo Real?

Resumo

Modelos de IA têm feito avanços significativos nos últimos anos em sua capacidade de descrever e responder a perguntas sobre imagens do mundo real. Eles também progrediram na capacidade de conversar com usuários em tempo real usando entrada de áudio. Isso levanta a questão: chegamos ao ponto em que modelos de IA, conectados a uma câmera e microfone, podem conversar com usuários em tempo real sobre cenas e eventos que estão se desenrolando ao vivo em frente à câmera? Esse tem sido um objetivo de longa data na IA e é um pré-requisito para que assistentes de IA do mundo real e robôs humanoides interajam com humanos em situações cotidianas. Neste trabalho, introduzimos um novo conjunto de dados e benchmark, o Qualcomm Interactive Video Dataset (IVD), que nos permite avaliar até que ponto os modelos existentes podem suportar essas habilidades e em que medida essas capacidades podem ser desenvolvidas por meio de ajuste fino. O conjunto de dados é baseado em uma configuração simples de perguntas e respostas, onde os usuários fazem perguntas que o sistema deve responder, em tempo real, com base na entrada da câmera e do áudio. Mostramos que os modelos existentes ficam muito aquém do desempenho humano nessa tarefa e identificamos as principais fontes dessa lacuna de desempenho. No entanto, também mostramos que, para muitas das habilidades perceptivas necessárias, o ajuste fino com esse tipo de dados pode reduzir significativamente essa lacuna.

English

AI models have made significant strides in recent years in their ability to describe and answer questions about real-world images. They have also made progress in the ability to converse with users in real-time using audio input. This raises the question: have we reached the point where AI models, connected to a camera and microphone, can converse with users in real-time about scenes and events that are unfolding live in front of the camera? This has been a long-standing goal in AI and is a prerequisite for real-world AI assistants and humanoid robots to interact with humans in everyday situations. In this work, we introduce a new dataset and benchmark, the Qualcomm Interactive Video Dataset (IVD), which allows us to assess the extent to which existing models can support these abilities, and to what degree these capabilities can be instilled through fine-tuning. The dataset is based on a simple question-answering setup, where users ask questions that the system has to answer, in real-time, based on the camera and audio input. We show that existing models fall far behind human performance on this task, and we identify the main sources for the performance gap. However, we also show that for many of the required perceptual skills, fine-tuning on this form of data can significantly reduce this gap.

Os Modelos de Visão e Linguagem Podem Responder a Perguntas Face a Face no Mundo Real?

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Resumo

Support