ToolTalk: Оценка использования инструментов в контексте диалоговых систем
ToolTalk: Evaluating Tool-Usage in a Conversational Setting
November 15, 2023
Авторы: Nicholas Farn, Richard Shin
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали значительные улучшения в навыках рассуждения и принятия решений, а также способны вести естественные диалоги с пользователями. Многие недавние работы направлены на расширение возможностей ассистентов на основе LLM за счет подключения внешних инструментов, что позволяет им получать доступ к приватной или актуальной информации и выполнять действия от имени пользователей. Для более точной оценки производительности таких ассистентов в данной статье представлен ToolTalk — эталонный набор, состоящий из сложных пользовательских запросов, требующих многошагового использования инструментов, задаваемых через диалог. ToolTalk включает 28 инструментов, объединенных в 7 плагинов, а также полную симуляцию реализации каждого инструмента, что позволяет проводить полностью автоматизированную оценку ассистентов, полагающихся на обратную связь от выполнения. ToolTalk также делает акцент на инструментах, которые оказывают внешнее воздействие на мир, а не только на инструментах для поиска или ссылок на информацию. Мы оценили GPT-3.5 и GPT-4 на ToolTalk, получив показатели успешности 26% и 50% соответственно. Наш анализ ошибок выявил три основные категории и предложил возможные направления для улучшения. Мы публикуем ToolTalk по адресу https://github.com/microsoft/ToolTalk.
English
Large language models (LLMs) have displayed massive improvements in reason-
ing and decision-making skills and can hold natural conversations with users.
Many recent works seek to augment LLM-based assistants with external tools so
they can access private or up-to-date information and carry out actions on
behalf of users. To better measure the performance of these assistants, this
paper introduces ToolTalk, a benchmark consisting of complex user intents re-
quiring multi-step tool usage specified through dialogue. ToolTalk contains 28
tools grouped into 7 plugins, and includes a complete simulated implementa-
tion of each tool, allowing for fully automated evaluation of assistants that
rely on execution feedback. ToolTalk also emphasizes tools that externally
affect the world rather than only tools for referencing or searching
information. We evaluate GPT-3.5 and GPT-4 on ToolTalk resulting in success
rates of 26% and 50% respectively. Our analysis of the errors reveals three
major categories and suggests some future directions for improvement. We
release ToolTalk at https://github.com/microsoft/ToolTalk.