AVIS: Búsqueda Autónoma de Información Visual con Modelos de Lenguaje a Gran Escala
AVIS: Autonomous Visual Information Seeking with Large Language Models
June 13, 2023
Autores: Ziniu Hu, Ahmet Iscen, Chen Sun, Kai-Wei Chang, Yizhou Sun, David A Ross, Cordelia Schmid, Alireza Fathi
cs.AI
Resumen
En este artículo, proponemos un marco autónomo de búsqueda de información para la respuesta a preguntas visuales, denominado AVIS. Nuestro método aprovecha un Modelo de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) para planificar dinámicamente el uso de herramientas externas y analizar sus resultados, adquiriendo así el conocimiento indispensable necesario para responder a las preguntas planteadas. Responder a preguntas visuales que requieren conocimiento externo, como "¿Qué evento conmemora el edificio que aparece en esta imagen?", es una tarea compleja. Esta tarea presenta un espacio de búsqueda combinatorio que exige una secuencia de acciones, incluyendo la invocación de APIs, el análisis de sus respuestas y la toma de decisiones informadas. Realizamos un estudio con usuarios para recopilar diversos ejemplos de toma de decisiones humanas al enfrentarse a esta tarea. Estos datos se utilizan para diseñar un sistema compuesto por tres componentes: un planificador basado en un LLM que determina dinámicamente qué herramienta usar a continuación, un razonador basado en un LLM que analiza y extrae información clave de los resultados de las herramientas, y un componente de memoria de trabajo que retiene la información adquirida durante todo el proceso. El comportamiento recopilado de los usuarios guía nuestro sistema de dos maneras clave. Primero, creamos un gráfico de transición analizando la secuencia de decisiones tomadas por los usuarios. Este gráfico delimita estados distintos y limita el conjunto de acciones disponibles en cada estado. Segundo, utilizamos ejemplos de toma de decisiones de los usuarios para proporcionar a nuestro planificador y razonador basados en LLM instancias contextuales relevantes, mejorando su capacidad para tomar decisiones informadas. Demostramos que AVIS logra resultados de vanguardia en benchmarks de respuesta a preguntas visuales intensivas en conocimiento, como Infoseek y OK-VQA.
English
In this paper, we propose an autonomous information seeking visual question
answering framework, AVIS. Our method leverages a Large Language Model (LLM) to
dynamically strategize the utilization of external tools and to investigate
their outputs, thereby acquiring the indispensable knowledge needed to provide
answers to the posed questions. Responding to visual questions that necessitate
external knowledge, such as "What event is commemorated by the building
depicted in this image?", is a complex task. This task presents a combinatorial
search space that demands a sequence of actions, including invoking APIs,
analyzing their responses, and making informed decisions. We conduct a user
study to collect a variety of instances of human decision-making when faced
with this task. This data is then used to design a system comprised of three
components: an LLM-powered planner that dynamically determines which tool to
use next, an LLM-powered reasoner that analyzes and extracts key information
from the tool outputs, and a working memory component that retains the acquired
information throughout the process. The collected user behavior serves as a
guide for our system in two key ways. First, we create a transition graph by
analyzing the sequence of decisions made by users. This graph delineates
distinct states and confines the set of actions available at each state.
Second, we use examples of user decision-making to provide our LLM-powered
planner and reasoner with relevant contextual instances, enhancing their
capacity to make informed decisions. We show that AVIS achieves
state-of-the-art results on knowledge-intensive visual question answering
benchmarks such as Infoseek and OK-VQA.