ChatPaper.aiChatPaper

ToolSandbox: Набор данных для оценки возможностей использования инструментов LLM в состоянии диалога и интерактивном режиме.

ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities

August 8, 2024
Авторы: Jiarui Lu, Thomas Holleis, Yizhe Zhang, Bernhard Aumayer, Feng Nan, Felix Bai, Shuang Ma, Shen Ma, Mengyu Li, Guoli Yin, Zirui Wang, Ruoming Pang
cs.AI

Аннотация

Недавние значительные достижения в области крупных языковых моделей (LLM) вызвали растущий интерес исследователей к использованию инструментов для решения реальных задач, что требует всесторонней оценки возможностей использования инструментов. В то время как предыдущие работы сосредотачивались либо на оценке через бессостояний веб-сервис (RESTful API) на основе одноразового запроса пользователя, либо на диалоговой траектории вне политики, ToolSandbox включает выполнение инструментов с сохранением состояния, неявные зависимости состояний между инструментами, встроенный симулятор пользователя, поддерживающий оценку разговоров в рамках политики, а также динамическую стратегию оценки для промежуточных и конечных этапов по произвольной траектории. Мы показываем, что у открытых и закрытых моделей существует значительный разрыв в производительности, и сложные задачи, такие как Зависимость от Состояния, Канонизация и Недостаточная Информация, определенные в ToolSandbox, представляют сложность даже для самых продвинутых LLM по состоянию на сегодня, предоставляя совершенно новые идеи о возможностях использования инструментов LLM. Оценочная платформа ToolSandbox доступна по ссылке https://github.com/apple/ToolSandbox
English
Recent large language models (LLMs) advancements sparked a growing research interest in tool assisted LLMs solving real-world challenges, which calls for comprehensive evaluation of tool-use capabilities. While previous works focused on either evaluating over stateless web services (RESTful API), based on a single turn user prompt, or an off-policy dialog trajectory, ToolSandbox includes stateful tool execution, implicit state dependencies between tools, a built-in user simulator supporting on-policy conversational evaluation and a dynamic evaluation strategy for intermediate and final milestones over an arbitrary trajectory. We show that open source and proprietary models have a significant performance gap, and complex tasks like State Dependency, Canonicalization and Insufficient Information defined in ToolSandbox are challenging even the most capable SOTA LLMs, providing brand-new insights into tool-use LLM capabilities. ToolSandbox evaluation framework is released at https://github.com/apple/ToolSandbox

Summary

AI-Generated Summary

PDF184November 28, 2024