ChatPaper.aiChatPaper

LLM's in het Imaginarium: Gereedschapsleren via gesimuleerde trial-and-error

LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error

March 7, 2024
Auteurs: Boshi Wang, Hao Fang, Jason Eisner, Benjamin Van Durme, Yu Su
cs.AI

Samenvatting

Gereedschappen zijn essentieel voor grote taalmodellen (LLMs) om actuele informatie te verkrijgen en consequente acties te ondernemen in externe omgevingen. Bestaand onderzoek naar tool-augmented LLMs richt zich voornamelijk op de brede dekking van gereedschappen en de flexibiliteit om nieuwe gereedschappen toe te voegen. Een kritisch aspect dat echter verrassend weinig aandacht heeft gekregen, is simpelweg hoe nauwkeurig een LLM de gereedschappen gebruikt waarvoor het is getraind. We constateren dat bestaande LLMs, inclusief GPT-4 en open-source LLMs die specifiek zijn afgestemd op het gebruik van gereedschappen, slechts een correctheidspercentage bereiken in het bereik van 30% tot 60%, ver verwijderd van betrouwbaar gebruik in de praktijk. We stellen een biologisch geïnspireerde methode voor voor tool-augmented LLMs, gesimuleerde trial and error (STE), die drie sleutelmechanismen orchestreert voor succesvol gereedschapsgebruik in het biologische systeem: trial and error, verbeelding en geheugen. Specifiek maakt STE gebruik van de 'verbeelding' van een LLM om plausibele scenario's te simuleren voor het gebruik van een gereedschap, waarna de LLM interacteert met het gereedschap om te leren van de feedback tijdens de uitvoering. Zowel kortetermijn- als langetermijngeheugen worden ingezet om respectievelijk de diepte en de breedte van de verkenning te verbeteren. Uitgebreide experimenten op ToolBench laten zien dat STE het leren van gereedschappen voor LLMs aanzienlijk verbetert, zowel in in-context learning als in fine-tuning settings, met een boost van 46,7% voor Mistral-Instruct-7B, waardoor het GPT-4 overtreft. We tonen ook effectief voortdurend leren van gereedschappen aan via een eenvoudige ervaringsherhalingsstrategie.
English
Tools are essential for large language models (LLMs) to acquire up-to-date information and take consequential actions in external environments. Existing work on tool-augmented LLMs primarily focuses on the broad coverage of tools and the flexibility of adding new tools. However, a critical aspect that has surprisingly been understudied is simply how accurately an LLM uses tools for which it has been trained. We find that existing LLMs, including GPT-4 and open-source LLMs specifically fine-tuned for tool use, only reach a correctness rate in the range of 30% to 60%, far from reliable use in practice. We propose a biologically inspired method for tool-augmented LLMs, simulated trial and error (STE), that orchestrates three key mechanisms for successful tool use behaviors in the biological system: trial and error, imagination, and memory. Specifically, STE leverages an LLM's 'imagination' to simulate plausible scenarios for using a tool, after which the LLM interacts with the tool to learn from its execution feedback. Both short-term and long-term memory are employed to improve the depth and breadth of the exploration, respectively. Comprehensive experiments on ToolBench show that STE substantially improves tool learning for LLMs under both in-context learning and fine-tuning settings, bringing a boost of 46.7% to Mistral-Instruct-7B and enabling it to outperform GPT-4. We also show effective continual learning of tools via a simple experience replay strategy.
PDF251December 15, 2024