도구 문서화는 대규모 언어 모델의 제로샷 도구 사용을 가능하게 한다
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models
August 1, 2023
저자: Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
cs.AI
초록
오늘날, 대규모 언어 모델(LLMs)은 도구 사용법에 대한 몇 가지 데모를 제공함으로써 새로운 도구를 사용하도록 학습됩니다. 불행히도, 데모를 얻는 것은 어려우며, 잘못된 데모가 선택되면 바람직하지 않은 편향된 사용으로 이어질 수 있습니다. 데모가 쉽게 구할 수 있는 드문 시나리오에서조차, 얼마나 많은 데모를 제공할지, 그리고 어떤 데모를 제공할지 결정하는 원칙적인 선택 프로토콜이 없습니다. 작업이 더 복잡해질수록 선택 탐색은 조합적으로 증가하며 필연적으로 다루기 어려워집니다. 우리의 연구는 데모에 대한 대안으로서 도구 문서를 제시합니다. 우리는 데모보다는 개별 도구 사용법에 대한 설명인 도구 문서의 사용을 주장합니다. 우리는 시각 및 언어 모달리티에 걸친 6가지 작업에 대한 세 가지 주요 실증적 발견을 통해 이 주장을 입증합니다. 첫째, 기존 벤치마크에서 도구 문서만으로 구성된 제로샷 프롬프트는 적절한 도구 사용을 이끌어내기에 충분하며, 퓨샷 프롬프트와 동등한 성능을 달성합니다. 둘째, 수백 개의 사용 가능한 도구 API가 포함된 새로 수집된 현실적인 도구 사용 데이터셋에서, 도구 문서가 데모보다 훨씬 더 가치가 있음을 보여주며, 문서가 없는 퓨샷보다 제로샷 문서가 훨씬 더 우수한 성능을 보입니다. 셋째, 우리는 방금 출시된 최첨단 모델을 도구로 사용하여 이미지 생성 및 비디오 추적을 해결함으로써 도구 문서의 이점을 강조합니다. 마지막으로, 도구 문서를 사용하여 새로운 애플리케이션을 자동으로 활성화할 가능성을 강조합니다: GroundingDino, Stable Diffusion, XMem, 그리고 SAM의 문서만을 사용하여, LLMs는 방금 출시된 Grounded-SAM 및 Track Anything 모델의 기능을 재창조할 수 있습니다.
English
Today, large language models (LLMs) are taught to use new tools by providing
a few demonstrations of the tool's usage. Unfortunately, demonstrations are
hard to acquire, and can result in undesirable biased usage if the wrong
demonstration is chosen. Even in the rare scenario that demonstrations are
readily available, there is no principled selection protocol to determine how
many and which ones to provide. As tasks grow more complex, the selection
search grows combinatorially and invariably becomes intractable. Our work
provides an alternative to demonstrations: tool documentation. We advocate the
use of tool documentation, descriptions for the individual tool usage, over
demonstrations. We substantiate our claim through three main empirical findings
on 6 tasks across both vision and language modalities. First, on existing
benchmarks, zero-shot prompts with only tool documentation are sufficient for
eliciting proper tool usage, achieving performance on par with few-shot
prompts. Second, on a newly collected realistic tool-use dataset with hundreds
of available tool APIs, we show that tool documentation is significantly more
valuable than demonstrations, with zero-shot documentation significantly
outperforming few-shot without documentation. Third, we highlight the benefits
of tool documentations by tackling image generation and video tracking using
just-released unseen state-of-the-art models as tools. Finally, we highlight
the possibility of using tool documentation to automatically enable new
applications: by using nothing more than the documentation of GroundingDino,
Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the
just-released Grounded-SAM and Track Anything models.