ChatPaper.aiChatPaper

Les LLM dans l'Imaginarium : Apprentissage d'outils par essais et erreurs simulés

LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error

March 7, 2024
Auteurs: Boshi Wang, Hao Fang, Jason Eisner, Benjamin Van Durme, Yu Su
cs.AI

Résumé

Les outils sont essentiels pour que les grands modèles de langage (LLMs) puissent acquérir des informations à jour et entreprendre des actions conséquentes dans des environnements externes. Les travaux existants sur les LLMs augmentés par des outils se concentrent principalement sur la couverture étendue des outils et la flexibilité d'ajout de nouveaux outils. Cependant, un aspect critique qui a été étonnamment peu étudié est simplement la précision avec laquelle un LLM utilise les outils pour lesquels il a été entraîné. Nous constatons que les LLMs existants, y compris GPT-4 et les LLMs open-source spécifiquement affinés pour l'utilisation d'outils, n'atteignent qu'un taux de précision compris entre 30% et 60%, loin d'une utilisation fiable en pratique. Nous proposons une méthode inspirée de la biologie pour les LLMs augmentés par des outils, l'essai et l'erreur simulés (STE), qui orchestre trois mécanismes clés pour des comportements réussis d'utilisation d'outils dans les systèmes biologiques : l'essai et l'erreur, l'imagination et la mémoire. Plus précisément, STE exploite l'« imagination » d'un LLM pour simuler des scénarios plausibles d'utilisation d'un outil, après quoi le LLM interagit avec l'outil pour apprendre de ses retours d'exécution. La mémoire à court terme et à long terme est utilisée pour améliorer respectivement la profondeur et l'étendue de l'exploration. Des expériences approfondies sur ToolBench montrent que STE améliore considérablement l'apprentissage des outils pour les LLMs dans des contextes d'apprentissage en contexte et d'affinage, apportant un gain de 46,7% à Mistral-Instruct-7B et lui permettant de surpasser GPT-4. Nous montrons également un apprentissage continu efficace des outils via une simple stratégie de relecture d'expérience.
English
Tools are essential for large language models (LLMs) to acquire up-to-date information and take consequential actions in external environments. Existing work on tool-augmented LLMs primarily focuses on the broad coverage of tools and the flexibility of adding new tools. However, a critical aspect that has surprisingly been understudied is simply how accurately an LLM uses tools for which it has been trained. We find that existing LLMs, including GPT-4 and open-source LLMs specifically fine-tuned for tool use, only reach a correctness rate in the range of 30% to 60%, far from reliable use in practice. We propose a biologically inspired method for tool-augmented LLMs, simulated trial and error (STE), that orchestrates three key mechanisms for successful tool use behaviors in the biological system: trial and error, imagination, and memory. Specifically, STE leverages an LLM's 'imagination' to simulate plausible scenarios for using a tool, after which the LLM interacts with the tool to learn from its execution feedback. Both short-term and long-term memory are employed to improve the depth and breadth of the exploration, respectively. Comprehensive experiments on ToolBench show that STE substantially improves tool learning for LLMs under both in-context learning and fine-tuning settings, bringing a boost of 46.7% to Mistral-Instruct-7B and enabling it to outperform GPT-4. We also show effective continual learning of tools via a simple experience replay strategy.
PDF261December 15, 2024