La documentación de herramientas permite el uso de herramientas con modelos de lenguaje de gran escala en modo zero-shot.
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models
August 1, 2023
Autores: Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
cs.AI
Resumen
Hoy en día, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) aprenden a utilizar nuevas herramientas mediante la provisión de algunas demostraciones de su uso. Desafortunadamente, las demostraciones son difíciles de obtener y pueden resultar en un uso sesgado e indeseable si se elige la demostración incorrecta. Incluso en el raro escenario en que las demostraciones están fácilmente disponibles, no existe un protocolo de selección fundamentado para determinar cuántas y cuáles proporcionar. A medida que las tareas se vuelven más complejas, la búsqueda de selección crece de manera combinatoria y se vuelve invariablemente intratable. Nuestro trabajo ofrece una alternativa a las demostraciones: la documentación de herramientas. Abogamos por el uso de documentación de herramientas, descripciones para el uso individual de la herramienta, en lugar de demostraciones. Sustentamos nuestra afirmación a través de tres hallazgos empíricos principales en 6 tareas que abarcan tanto modalidades visuales como de lenguaje. Primero, en puntos de referencia existentes, los prompts de cero disparos con solo documentación de herramientas son suficientes para elicitar un uso adecuado de la herramienta, logrando un rendimiento comparable a los prompts de pocos disparos. Segundo, en un nuevo conjunto de datos realistas de uso de herramientas con cientos de APIs disponibles, mostramos que la documentación de herramientas es significativamente más valiosa que las demostraciones, con la documentación de cero disparos superando significativamente a los pocos disparos sin documentación. Tercero, destacamos los beneficios de la documentación de herramientas al abordar la generación de imágenes y el seguimiento de videos utilizando modelos de última generación recién lanzados como herramientas. Finalmente, destacamos la posibilidad de utilizar la documentación de herramientas para habilitar automáticamente nuevas aplicaciones: utilizando nada más que la documentación de GroundingDino, Stable Diffusion, XMem y SAM, los LLMs pueden reinventar las funcionalidades de los modelos recién lanzados Grounded-SAM y Track Anything.
English
Today, large language models (LLMs) are taught to use new tools by providing
a few demonstrations of the tool's usage. Unfortunately, demonstrations are
hard to acquire, and can result in undesirable biased usage if the wrong
demonstration is chosen. Even in the rare scenario that demonstrations are
readily available, there is no principled selection protocol to determine how
many and which ones to provide. As tasks grow more complex, the selection
search grows combinatorially and invariably becomes intractable. Our work
provides an alternative to demonstrations: tool documentation. We advocate the
use of tool documentation, descriptions for the individual tool usage, over
demonstrations. We substantiate our claim through three main empirical findings
on 6 tasks across both vision and language modalities. First, on existing
benchmarks, zero-shot prompts with only tool documentation are sufficient for
eliciting proper tool usage, achieving performance on par with few-shot
prompts. Second, on a newly collected realistic tool-use dataset with hundreds
of available tool APIs, we show that tool documentation is significantly more
valuable than demonstrations, with zero-shot documentation significantly
outperforming few-shot without documentation. Third, we highlight the benefits
of tool documentations by tackling image generation and video tracking using
just-released unseen state-of-the-art models as tools. Finally, we highlight
the possibility of using tool documentation to automatically enable new
applications: by using nothing more than the documentation of GroundingDino,
Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the
just-released Grounded-SAM and Track Anything models.