AVIS: Autonoom Visueel Informatie Zoeken met Grote Taalmodellen

Samenvatting

In dit artikel presenteren we een autonoom informatiezoekend visueel vraag-antwoordraamwerk, AVIS. Onze methode maakt gebruik van een groot taalmodel (LLM) om dynamisch strategieën te bepalen voor het gebruik van externe tools en om hun uitvoer te onderzoeken, waardoor de noodzakelijke kennis wordt verworven om antwoorden te geven op de gestelde vragen. Het beantwoorden van visuele vragen die externe kennis vereisen, zoals "Welk evenement wordt herdacht door het gebouw in deze afbeelding?", is een complexe taak. Deze taak presenteert een combinatorische zoekruimte die een reeks acties vereist, waaronder het aanroepen van API's, het analyseren van hun reacties en het nemen van weloverwogen beslissingen. We voeren een gebruikersstudie uit om verschillende voorbeelden van menselijke besluitvorming bij deze taak te verzamelen. Deze gegevens worden vervolgens gebruikt om een systeem te ontwerpen dat bestaat uit drie componenten: een LLM-aangedreven planner die dynamisch bepaalt welke tool vervolgens moet worden gebruikt, een LLM-aangedreven redenator die de uitvoer van de tools analyseert en belangrijke informatie eruit haalt, en een werkgeheugencomponent die de verworven informatie gedurende het proces behoudt. Het verzamelde gebruikersgedrag dient als leidraad voor ons systeem op twee belangrijke manieren. Ten eerste creëren we een overgangsgrafiek door de reeks beslissingen die gebruikers nemen te analyseren. Deze grafiek beschrijft verschillende statussen en beperkt de set acties die beschikbaar zijn in elke status. Ten tweede gebruiken we voorbeelden van gebruikersbesluitvorming om onze LLM-aangedreven planner en redenator relevante contextuele voorbeelden te bieden, waardoor hun vermogen om weloverwogen beslissingen te nemen wordt verbeterd. We tonen aan dat AVIS state-of-the-art resultaten behaalt op kennisintensieve visuele vraag-antwoordbenchmarks zoals Infoseek en OK-VQA.

English

In this paper, we propose an autonomous information seeking visual question answering framework, AVIS. Our method leverages a Large Language Model (LLM) to dynamically strategize the utilization of external tools and to investigate their outputs, thereby acquiring the indispensable knowledge needed to provide answers to the posed questions. Responding to visual questions that necessitate external knowledge, such as "What event is commemorated by the building depicted in this image?", is a complex task. This task presents a combinatorial search space that demands a sequence of actions, including invoking APIs, analyzing their responses, and making informed decisions. We conduct a user study to collect a variety of instances of human decision-making when faced with this task. This data is then used to design a system comprised of three components: an LLM-powered planner that dynamically determines which tool to use next, an LLM-powered reasoner that analyzes and extracts key information from the tool outputs, and a working memory component that retains the acquired information throughout the process. The collected user behavior serves as a guide for our system in two key ways. First, we create a transition graph by analyzing the sequence of decisions made by users. This graph delineates distinct states and confines the set of actions available at each state. Second, we use examples of user decision-making to provide our LLM-powered planner and reasoner with relevant contextual instances, enhancing their capacity to make informed decisions. We show that AVIS achieves state-of-the-art results on knowledge-intensive visual question answering benchmarks such as Infoseek and OK-VQA.

AVIS: Autonoom Visueel Informatie Zoeken met Grote Taalmodellen

AVIS: Autonomous Visual Information Seeking with Large Language Models

Samenvatting

Support