AVIS: Autonoom Visueel Informatie Zoeken met Grote Taalmodellen
AVIS: Autonomous Visual Information Seeking with Large Language Models
June 13, 2023
Auteurs: Ziniu Hu, Ahmet Iscen, Chen Sun, Kai-Wei Chang, Yizhou Sun, David A Ross, Cordelia Schmid, Alireza Fathi
cs.AI
Samenvatting
In dit artikel presenteren we een autonoom informatiezoekend visueel vraag-antwoordraamwerk, AVIS. Onze methode maakt gebruik van een groot taalmodel (LLM) om dynamisch strategieën te bepalen voor het gebruik van externe tools en om hun uitvoer te onderzoeken, waardoor de noodzakelijke kennis wordt verworven om antwoorden te geven op de gestelde vragen. Het beantwoorden van visuele vragen die externe kennis vereisen, zoals "Welk evenement wordt herdacht door het gebouw in deze afbeelding?", is een complexe taak. Deze taak presenteert een combinatorische zoekruimte die een reeks acties vereist, waaronder het aanroepen van API's, het analyseren van hun reacties en het nemen van weloverwogen beslissingen. We voeren een gebruikersstudie uit om verschillende voorbeelden van menselijke besluitvorming bij deze taak te verzamelen. Deze gegevens worden vervolgens gebruikt om een systeem te ontwerpen dat bestaat uit drie componenten: een LLM-aangedreven planner die dynamisch bepaalt welke tool vervolgens moet worden gebruikt, een LLM-aangedreven redenator die de uitvoer van de tools analyseert en belangrijke informatie eruit haalt, en een werkgeheugencomponent die de verworven informatie gedurende het proces behoudt. Het verzamelde gebruikersgedrag dient als leidraad voor ons systeem op twee belangrijke manieren. Ten eerste creëren we een overgangsgrafiek door de reeks beslissingen die gebruikers nemen te analyseren. Deze grafiek beschrijft verschillende statussen en beperkt de set acties die beschikbaar zijn in elke status. Ten tweede gebruiken we voorbeelden van gebruikersbesluitvorming om onze LLM-aangedreven planner en redenator relevante contextuele voorbeelden te bieden, waardoor hun vermogen om weloverwogen beslissingen te nemen wordt verbeterd. We tonen aan dat AVIS state-of-the-art resultaten behaalt op kennisintensieve visuele vraag-antwoordbenchmarks zoals Infoseek en OK-VQA.
English
In this paper, we propose an autonomous information seeking visual question
answering framework, AVIS. Our method leverages a Large Language Model (LLM) to
dynamically strategize the utilization of external tools and to investigate
their outputs, thereby acquiring the indispensable knowledge needed to provide
answers to the posed questions. Responding to visual questions that necessitate
external knowledge, such as "What event is commemorated by the building
depicted in this image?", is a complex task. This task presents a combinatorial
search space that demands a sequence of actions, including invoking APIs,
analyzing their responses, and making informed decisions. We conduct a user
study to collect a variety of instances of human decision-making when faced
with this task. This data is then used to design a system comprised of three
components: an LLM-powered planner that dynamically determines which tool to
use next, an LLM-powered reasoner that analyzes and extracts key information
from the tool outputs, and a working memory component that retains the acquired
information throughout the process. The collected user behavior serves as a
guide for our system in two key ways. First, we create a transition graph by
analyzing the sequence of decisions made by users. This graph delineates
distinct states and confines the set of actions available at each state.
Second, we use examples of user decision-making to provide our LLM-powered
planner and reasoner with relevant contextual instances, enhancing their
capacity to make informed decisions. We show that AVIS achieves
state-of-the-art results on knowledge-intensive visual question answering
benchmarks such as Infoseek and OK-VQA.