ChatPaper.aiChatPaper

LLMs en el Imaginario: Aprendizaje de Herramientas mediante Simulación de Ensayo y Error

LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error

March 7, 2024
Autores: Boshi Wang, Hao Fang, Jason Eisner, Benjamin Van Durme, Yu Su
cs.AI

Resumen

Las herramientas son esenciales para que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) obtengan información actualizada y realicen acciones significativas en entornos externos. El trabajo existente sobre LLMs aumentados con herramientas se centra principalmente en la amplia cobertura de herramientas y la flexibilidad para añadir nuevas. Sin embargo, un aspecto crítico que, sorprendentemente, ha sido poco estudiado es simplemente cuán precisa es la forma en que un LLM utiliza las herramientas para las que ha sido entrenado. Descubrimos que los LLMs existentes, incluidos GPT-4 y LLMs de código abierto específicamente ajustados para el uso de herramientas, solo alcanzan una tasa de precisión en el rango del 30% al 60%, lejos de ser confiables en la práctica. Proponemos un método inspirado en la biología para LLMs aumentados con herramientas, llamado ensayo y error simulado (STE, por sus siglas en inglés), que orquesta tres mecanismos clave para comportamientos exitosos en el uso de herramientas en sistemas biológicos: ensayo y error, imaginación y memoria. Específicamente, STE aprovecha la "imaginación" de un LLM para simular escenarios plausibles de uso de una herramienta, después de lo cual el LLM interactúa con la herramienta para aprender de su retroalimentación de ejecución. Tanto la memoria a corto como a largo plazo se emplean para mejorar la profundidad y amplitud de la exploración, respectivamente. Experimentos exhaustivos en ToolBench muestran que STE mejora sustancialmente el aprendizaje de herramientas para LLMs tanto en entornos de aprendizaje en contexto como de ajuste fino, logrando un aumento del 46.7% en Mistral-Instruct-7B y permitiéndole superar a GPT-4. También demostramos un aprendizaje continuo efectivo de herramientas mediante una simple estrategia de repetición de experiencias.
English
Tools are essential for large language models (LLMs) to acquire up-to-date information and take consequential actions in external environments. Existing work on tool-augmented LLMs primarily focuses on the broad coverage of tools and the flexibility of adding new tools. However, a critical aspect that has surprisingly been understudied is simply how accurately an LLM uses tools for which it has been trained. We find that existing LLMs, including GPT-4 and open-source LLMs specifically fine-tuned for tool use, only reach a correctness rate in the range of 30% to 60%, far from reliable use in practice. We propose a biologically inspired method for tool-augmented LLMs, simulated trial and error (STE), that orchestrates three key mechanisms for successful tool use behaviors in the biological system: trial and error, imagination, and memory. Specifically, STE leverages an LLM's 'imagination' to simulate plausible scenarios for using a tool, after which the LLM interacts with the tool to learn from its execution feedback. Both short-term and long-term memory are employed to improve the depth and breadth of the exploration, respectively. Comprehensive experiments on ToolBench show that STE substantially improves tool learning for LLMs under both in-context learning and fine-tuning settings, bringing a boost of 46.7% to Mistral-Instruct-7B and enabling it to outperform GPT-4. We also show effective continual learning of tools via a simple experience replay strategy.
PDF261December 15, 2024