ChatPaper.aiChatPaper

GTA: Бенчмарк для агентов общего назначения

GTA: A Benchmark for General Tool Agents

July 11, 2024
Авторы: Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le
cs.AI

Аннотация

Значительное внимание уделяется интеграции больших языковых моделей (LLM) с различными инструментами для разработки универсальных агентов. Это представляет собой вызов для возможностей использования инструментов LLM. Однако существуют явные разрывы между существующими оценками использования инструментов и реальными сценариями. На текущий момент оценки часто используют искусственно созданные запросы, задачи с одним шагом, фиктивные инструменты и взаимодействие только с текстом, что не позволяет эффективно выявить способности агентов к решению проблем в реальном мире. Для решения этой проблемы мы предлагаем GTA, бенчмарк для агентов общего назначения, включающий три основных аспекта: (i) Запросы реальных пользователей: запросы, написанные людьми, с простыми целями в реальном мире, но с неявным использованием инструментов, требующие от LLM обосновать подходящие инструменты и спланировать шаги решения. (ii) Реальные инструменты: платформа оценки, оснащенная инструментами по категориям восприятия, операций, логики и креативности для оценки фактической производительности агентов при выполнении задач. (iii) Реальные мультимодальные входы: аутентичные изображения, такие как пространственные сцены, снимки веб-страниц, таблицы, фрагменты кода и печатные/рукописные материалы, используемые в качестве контекста запроса для близкого соответствия реальным сценариям. Мы разработали 229 задач реального мира и исполнимые цепочки инструментов для оценки основных LLM. Наши результаты показывают, что запросы пользователей из реального мира представляют собой вызов для существующих LLM, с GPT-4 выполняющим менее 50% задач, а большинство LLM достигают результатов ниже 25%. Эта оценка выявляет узкие места в возможностях использования инструментов текущих LLM в реальных сценариях, что определяет направление для развития агентов универсальных инструментов. Код и набор данных доступны по ссылке https://github.com/open-compass/GTA.
English
Significant focus has been placed on integrating large language models (LLMs) with various tools in developing general-purpose agents. This poses a challenge to LLMs' tool-use capabilities. However, there are evident gaps between existing tool-use evaluations and real-world scenarios. Current evaluations often use AI-generated queries, single-step tasks, dummy tools, and text-only interactions, failing to reveal the agents' real-world problem-solving abilities effectively. To address this, we propose GTA, a benchmark for General Tool Agents, featuring three main aspects: (i) Real user queries: human-written queries with simple real-world objectives but implicit tool-use, requiring the LLM to reason the suitable tools and plan the solution steps. (ii) Real deployed tools: an evaluation platform equipped with tools across perception, operation, logic, and creativity categories to evaluate the agents' actual task execution performance. (iii) Real multimodal inputs: authentic image files, such as spatial scenes, web page screenshots, tables, code snippets, and printed/handwritten materials, used as the query contexts to align with real-world scenarios closely. We design 229 real-world tasks and executable tool chains to evaluate mainstream LLMs. Our findings show that real-world user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%. This evaluation reveals the bottlenecks in the tool-use capabilities of current LLMs in real-world scenarios, which provides future direction for advancing general-purpose tool agents. The code and dataset are available at https://github.com/open-compass/GTA.

Summary

AI-Generated Summary

PDF173November 28, 2024