AVIS: Автономный поиск визуальной информации с использованием больших языковых моделей
AVIS: Autonomous Visual Information Seeking with Large Language Models
June 13, 2023
Авторы: Ziniu Hu, Ahmet Iscen, Chen Sun, Kai-Wei Chang, Yizhou Sun, David A Ross, Cordelia Schmid, Alireza Fathi
cs.AI
Аннотация
В данной статье мы представляем автономную систему визуального ответа на вопросы с поиском информации, AVIS. Наш метод использует большую языковую модель (LLM) для динамического планирования использования внешних инструментов и анализа их результатов, что позволяет получать необходимые знания для ответов на поставленные вопросы. Ответы на визуальные вопросы, требующие внешних знаний, такие как "Какое событие символизирует здание на этом изображении?", представляют собой сложную задачу. Эта задача формирует комбинаторное пространство поиска, требующее последовательности действий, включая вызов API, анализ их ответов и принятие обоснованных решений. Мы проводим исследование с участием пользователей, чтобы собрать различные примеры принятия решений людьми при выполнении этой задачи. Эти данные затем используются для разработки системы, состоящей из трех компонентов: планировщика на основе LLM, который динамически определяет, какой инструмент использовать следующим, анализатора на основе LLM, который анализирует и извлекает ключевую информацию из результатов инструментов, и компонента рабочей памяти, который сохраняет полученную информацию на протяжении всего процесса. Собранные данные о поведении пользователей служат руководством для нашей системы в двух ключевых аспектах. Во-первых, мы создаем граф переходов, анализируя последовательность решений, принятых пользователями. Этот граф определяет различные состояния и ограничивает набор доступных действий в каждом состоянии. Во-вторых, мы используем примеры принятия решений пользователями, чтобы предоставить нашему планировщику и анализатору на основе LLM релевантные контекстные примеры, повышая их способность принимать обоснованные решения. Мы показываем, что AVIS достигает наилучших результатов на эталонных тестах визуального ответа на вопросы, требующих интенсивного использования знаний, таких как Infoseek и OK-VQA.
English
In this paper, we propose an autonomous information seeking visual question
answering framework, AVIS. Our method leverages a Large Language Model (LLM) to
dynamically strategize the utilization of external tools and to investigate
their outputs, thereby acquiring the indispensable knowledge needed to provide
answers to the posed questions. Responding to visual questions that necessitate
external knowledge, such as "What event is commemorated by the building
depicted in this image?", is a complex task. This task presents a combinatorial
search space that demands a sequence of actions, including invoking APIs,
analyzing their responses, and making informed decisions. We conduct a user
study to collect a variety of instances of human decision-making when faced
with this task. This data is then used to design a system comprised of three
components: an LLM-powered planner that dynamically determines which tool to
use next, an LLM-powered reasoner that analyzes and extracts key information
from the tool outputs, and a working memory component that retains the acquired
information throughout the process. The collected user behavior serves as a
guide for our system in two key ways. First, we create a transition graph by
analyzing the sequence of decisions made by users. This graph delineates
distinct states and confines the set of actions available at each state.
Second, we use examples of user decision-making to provide our LLM-powered
planner and reasoner with relevant contextual instances, enhancing their
capacity to make informed decisions. We show that AVIS achieves
state-of-the-art results on knowledge-intensive visual question answering
benchmarks such as Infoseek and OK-VQA.