ToolSandbox: Набор данных для оценки возможностей использования инструментов LLM в состоянии диалога и интерактивном режиме.
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities
August 8, 2024
Авторы: Jiarui Lu, Thomas Holleis, Yizhe Zhang, Bernhard Aumayer, Feng Nan, Felix Bai, Shuang Ma, Shen Ma, Mengyu Li, Guoli Yin, Zirui Wang, Ruoming Pang
cs.AI
Аннотация
Недавние значительные достижения в области крупных языковых моделей (LLM) вызвали растущий интерес исследователей к использованию инструментов для решения реальных задач, что требует всесторонней оценки возможностей использования инструментов. В то время как предыдущие работы сосредотачивались либо на оценке через бессостояний веб-сервис (RESTful API) на основе одноразового запроса пользователя, либо на диалоговой траектории вне политики, ToolSandbox включает выполнение инструментов с сохранением состояния, неявные зависимости состояний между инструментами, встроенный симулятор пользователя, поддерживающий оценку разговоров в рамках политики, а также динамическую стратегию оценки для промежуточных и конечных этапов по произвольной траектории. Мы показываем, что у открытых и закрытых моделей существует значительный разрыв в производительности, и сложные задачи, такие как Зависимость от Состояния, Канонизация и Недостаточная Информация, определенные в ToolSandbox, представляют сложность даже для самых продвинутых LLM по состоянию на сегодня, предоставляя совершенно новые идеи о возможностях использования инструментов LLM. Оценочная платформа ToolSandbox доступна по ссылке https://github.com/apple/ToolSandbox
English
Recent large language models (LLMs) advancements sparked a growing research
interest in tool assisted LLMs solving real-world challenges, which calls for
comprehensive evaluation of tool-use capabilities. While previous works focused
on either evaluating over stateless web services (RESTful API), based on a
single turn user prompt, or an off-policy dialog trajectory, ToolSandbox
includes stateful tool execution, implicit state dependencies between tools, a
built-in user simulator supporting on-policy conversational evaluation and a
dynamic evaluation strategy for intermediate and final milestones over an
arbitrary trajectory. We show that open source and proprietary models have a
significant performance gap, and complex tasks like State Dependency,
Canonicalization and Insufficient Information defined in ToolSandbox are
challenging even the most capable SOTA LLMs, providing brand-new insights into
tool-use LLM capabilities. ToolSandbox evaluation framework is released at
https://github.com/apple/ToolSandboxSummary
AI-Generated Summary