ChatPaper.aiChatPaper

LLMs no Imaginário: Aprendizado de Ferramentas por Meio de Simulação de Tentativa e Erro

LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error

March 7, 2024
Autores: Boshi Wang, Hao Fang, Jason Eisner, Benjamin Van Durme, Yu Su
cs.AI

Resumo

Ferramentas são essenciais para que modelos de linguagem de grande escala (LLMs) obtenham informações atualizadas e realizem ações consequentes em ambientes externos. Trabalhos existentes sobre LLMs aumentados por ferramentas focam principalmente na ampla cobertura de ferramentas e na flexibilidade de adicionar novas ferramentas. No entanto, um aspecto crítico que surpreendentemente tem sido pouco estudado é simplesmente quão precisamente um LLM utiliza as ferramentas para as quais foi treinado. Descobrimos que os LLMs existentes, incluindo o GPT-4 e LLMs de código aberto especificamente ajustados para o uso de ferramentas, atingem apenas uma taxa de acerto na faixa de 30% a 60%, longe de um uso confiável na prática. Propomos um método inspirado na biologia para LLMs aumentados por ferramentas, chamado de tentativa e erro simulada (STE, do inglês Simulated Trial and Error), que orquestra três mecanismos-chave para comportamentos bem-sucedidos de uso de ferramentas no sistema biológico: tentativa e erro, imaginação e memória. Especificamente, o STE aproveita a 'imaginação' de um LLM para simular cenários plausíveis de uso de uma ferramenta, após o qual o LLM interage com a ferramenta para aprender com o feedback de sua execução. Tanto a memória de curto prazo quanto a de longo prazo são empregadas para melhorar, respectivamente, a profundidade e a amplitude da exploração. Experimentos abrangentes no ToolBench mostram que o STE melhora substancialmente o aprendizado de ferramentas para LLMs tanto em configurações de aprendizado em contexto quanto de ajuste fino, proporcionando um aumento de 46,7% para o Mistral-Instruct-7B e permitindo que ele supere o GPT-4. Também demonstramos um aprendizado contínuo eficaz de ferramentas por meio de uma simples estratégia de replay de experiências.
English
Tools are essential for large language models (LLMs) to acquire up-to-date information and take consequential actions in external environments. Existing work on tool-augmented LLMs primarily focuses on the broad coverage of tools and the flexibility of adding new tools. However, a critical aspect that has surprisingly been understudied is simply how accurately an LLM uses tools for which it has been trained. We find that existing LLMs, including GPT-4 and open-source LLMs specifically fine-tuned for tool use, only reach a correctness rate in the range of 30% to 60%, far from reliable use in practice. We propose a biologically inspired method for tool-augmented LLMs, simulated trial and error (STE), that orchestrates three key mechanisms for successful tool use behaviors in the biological system: trial and error, imagination, and memory. Specifically, STE leverages an LLM's 'imagination' to simulate plausible scenarios for using a tool, after which the LLM interacts with the tool to learn from its execution feedback. Both short-term and long-term memory are employed to improve the depth and breadth of the exploration, respectively. Comprehensive experiments on ToolBench show that STE substantially improves tool learning for LLMs under both in-context learning and fine-tuning settings, bringing a boost of 46.7% to Mistral-Instruct-7B and enabling it to outperform GPT-4. We also show effective continual learning of tools via a simple experience replay strategy.
PDF251December 15, 2024