AVIS: Автономный поиск визуальной информации с использованием больших языковых моделей

Аннотация

В данной статье мы представляем автономную систему визуального ответа на вопросы с поиском информации, AVIS. Наш метод использует большую языковую модель (LLM) для динамического планирования использования внешних инструментов и анализа их результатов, что позволяет получать необходимые знания для ответов на поставленные вопросы. Ответы на визуальные вопросы, требующие внешних знаний, такие как "Какое событие символизирует здание на этом изображении?", представляют собой сложную задачу. Эта задача формирует комбинаторное пространство поиска, требующее последовательности действий, включая вызов API, анализ их ответов и принятие обоснованных решений. Мы проводим исследование с участием пользователей, чтобы собрать различные примеры принятия решений людьми при выполнении этой задачи. Эти данные затем используются для разработки системы, состоящей из трех компонентов: планировщика на основе LLM, который динамически определяет, какой инструмент использовать следующим, анализатора на основе LLM, который анализирует и извлекает ключевую информацию из результатов инструментов, и компонента рабочей памяти, который сохраняет полученную информацию на протяжении всего процесса. Собранные данные о поведении пользователей служат руководством для нашей системы в двух ключевых аспектах. Во-первых, мы создаем граф переходов, анализируя последовательность решений, принятых пользователями. Этот граф определяет различные состояния и ограничивает набор доступных действий в каждом состоянии. Во-вторых, мы используем примеры принятия решений пользователями, чтобы предоставить нашему планировщику и анализатору на основе LLM релевантные контекстные примеры, повышая их способность принимать обоснованные решения. Мы показываем, что AVIS достигает наилучших результатов на эталонных тестах визуального ответа на вопросы, требующих интенсивного использования знаний, таких как Infoseek и OK-VQA.

English

In this paper, we propose an autonomous information seeking visual question answering framework, AVIS. Our method leverages a Large Language Model (LLM) to dynamically strategize the utilization of external tools and to investigate their outputs, thereby acquiring the indispensable knowledge needed to provide answers to the posed questions. Responding to visual questions that necessitate external knowledge, such as "What event is commemorated by the building depicted in this image?", is a complex task. This task presents a combinatorial search space that demands a sequence of actions, including invoking APIs, analyzing their responses, and making informed decisions. We conduct a user study to collect a variety of instances of human decision-making when faced with this task. This data is then used to design a system comprised of three components: an LLM-powered planner that dynamically determines which tool to use next, an LLM-powered reasoner that analyzes and extracts key information from the tool outputs, and a working memory component that retains the acquired information throughout the process. The collected user behavior serves as a guide for our system in two key ways. First, we create a transition graph by analyzing the sequence of decisions made by users. This graph delineates distinct states and confines the set of actions available at each state. Second, we use examples of user decision-making to provide our LLM-powered planner and reasoner with relevant contextual instances, enhancing their capacity to make informed decisions. We show that AVIS achieves state-of-the-art results on knowledge-intensive visual question answering benchmarks such as Infoseek and OK-VQA.

AVIS: Автономный поиск визуальной информации с использованием больших языковых моделей

AVIS: Autonomous Visual Information Seeking with Large Language Models

Аннотация

Support