ChatPaper.aiChatPaper

Документация инструментов позволяет использовать инструменты с крупными языковыми моделями в режиме "zero-shot".

Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

August 1, 2023
Авторы: Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
cs.AI

Аннотация

Сегодня крупные языковые модели (LLMs) обучаются использовать новые инструменты с помощью предоставления нескольких демонстраций их использования. К сожалению, демонстрации сложно получить, и они могут привести к нежелательному смещению в использовании, если выбрана неподходящая демонстрация. Даже в редких случаях, когда демонстрации легко доступны, отсутствует систематический протокол для определения того, сколько и какие именно демонстрации следует предоставить. По мере усложнения задач поиск подходящих демонстраций растет комбинаторно и неизбежно становится неразрешимым. Наша работа предлагает альтернативу демонстрациям: документацию по инструментам. Мы выступаем за использование документации по инструментам, описаний их индивидуального использования, вместо демонстраций. Мы подтверждаем наше утверждение тремя основными эмпирическими результатами на 6 задачах, охватывающих как визуальные, так и языковые модальности. Во-первых, на существующих бенчмарках нулевые подсказки с использованием только документации по инструментам достаточны для правильного использования инструментов, достигая производительности на уровне немногих подсказок. Во-вторых, на новом реалистичном наборе данных по использованию инструментов с сотнями доступных API мы показываем, что документация по инструментам значительно ценнее демонстраций, при этом нулевые подсказки с документацией значительно превосходят немногие подсказки без документации. В-третьих, мы подчеркиваем преимущества документации по инструментам, решая задачи генерации изображений и отслеживания видео с использованием только что выпущенных передовых моделей в качестве инструментов. Наконец, мы подчеркиваем возможность использования документации по инструментам для автоматического включения новых приложений: используя только документацию по GroundingDino, Stable Diffusion, XMem и SAM, LLMs могут воссоздать функциональность только что выпущенных моделей Grounded-SAM и Track Anything.
English
Today, large language models (LLMs) are taught to use new tools by providing a few demonstrations of the tool's usage. Unfortunately, demonstrations are hard to acquire, and can result in undesirable biased usage if the wrong demonstration is chosen. Even in the rare scenario that demonstrations are readily available, there is no principled selection protocol to determine how many and which ones to provide. As tasks grow more complex, the selection search grows combinatorially and invariably becomes intractable. Our work provides an alternative to demonstrations: tool documentation. We advocate the use of tool documentation, descriptions for the individual tool usage, over demonstrations. We substantiate our claim through three main empirical findings on 6 tasks across both vision and language modalities. First, on existing benchmarks, zero-shot prompts with only tool documentation are sufficient for eliciting proper tool usage, achieving performance on par with few-shot prompts. Second, on a newly collected realistic tool-use dataset with hundreds of available tool APIs, we show that tool documentation is significantly more valuable than demonstrations, with zero-shot documentation significantly outperforming few-shot without documentation. Third, we highlight the benefits of tool documentations by tackling image generation and video tracking using just-released unseen state-of-the-art models as tools. Finally, we highlight the possibility of using tool documentation to automatically enable new applications: by using nothing more than the documentation of GroundingDino, Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the just-released Grounded-SAM and Track Anything models.
PDF361December 15, 2024