LLMs im Imaginarium: Werkzeuglernen durch simuliertes Versuch und Irrtum
LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error
March 7, 2024
Autoren: Boshi Wang, Hao Fang, Jason Eisner, Benjamin Van Durme, Yu Su
cs.AI
Zusammenfassung
Werkzeuge sind für große Sprachmodelle (LLMs) unerlässlich, um aktuelle Informationen zu erlangen und konsequente Handlungen in externen Umgebungen durchzuführen. Die bestehenden Arbeiten zu werkzeugunterstützten LLMs konzentrieren sich hauptsächlich auf die umfassende Abdeckung von Werkzeugen und die Flexibilität, neue Werkzeuge hinzuzufügen. Ein kritischer Aspekt, der überraschenderweise wenig erforscht wurde, ist jedoch einfach die Genauigkeit, mit der ein LLM Werkzeuge einsetzt, für die es trainiert wurde. Wir stellen fest, dass bestehende LLMs, einschließlich GPT-4 und Open-Source LLMs, die speziell für den Werkzeugeinsatz feinabgestimmt wurden, nur eine Korrektheitsrate im Bereich von 30% bis 60% erreichen, weit entfernt von einer zuverlässigen Anwendung in der Praxis. Wir schlagen eine biologisch inspirierte Methode für werkzeugunterstützte LLMs vor, das simulierte Trial-and-Error (STE), das drei Schlüsselmechanismen für erfolgreiche Werkzeugnutzungsverhalten im biologischen System orchestriert: Versuch und Irrtum, Vorstellungskraft und Gedächtnis. Konkret nutzt STE die "Vorstellungskraft" eines LLMs, um plausible Szenarien für die Verwendung eines Werkzeugs zu simulieren, woraufhin das LLM mit dem Werkzeug interagiert, um aus dem Ausführungsfeedback zu lernen. Sowohl das Kurzzeit- als auch das Langzeitgedächtnis werden eingesetzt, um die Tiefe und Breite der Exploration entsprechend zu verbessern. Umfassende Experimente auf ToolBench zeigen, dass STE das Werkzeuglernen für LLMs unter sowohl kontextbezogenem Lernen als auch Feinabstimmungseinstellungen erheblich verbessert, was eine Steigerung von 46,7% für Mistral-Instruct-7B mit sich bringt und es ermöglicht, GPT-4 zu übertreffen. Wir zeigen auch ein effektives kontinuierliches Lernen von Werkzeugen mittels einer einfachen Erfahrungswiederholungsstrategie.
English
Tools are essential for large language models (LLMs) to acquire up-to-date
information and take consequential actions in external environments. Existing
work on tool-augmented LLMs primarily focuses on the broad coverage of tools
and the flexibility of adding new tools. However, a critical aspect that has
surprisingly been understudied is simply how accurately an LLM uses tools for
which it has been trained. We find that existing LLMs, including GPT-4 and
open-source LLMs specifically fine-tuned for tool use, only reach a correctness
rate in the range of 30% to 60%, far from reliable use in practice. We propose
a biologically inspired method for tool-augmented LLMs, simulated trial and
error (STE), that orchestrates three key mechanisms for successful tool use
behaviors in the biological system: trial and error, imagination, and memory.
Specifically, STE leverages an LLM's 'imagination' to simulate plausible
scenarios for using a tool, after which the LLM interacts with the tool to
learn from its execution feedback. Both short-term and long-term memory are
employed to improve the depth and breadth of the exploration, respectively.
Comprehensive experiments on ToolBench show that STE substantially improves
tool learning for LLMs under both in-context learning and fine-tuning settings,
bringing a boost of 46.7% to Mistral-Instruct-7B and enabling it to outperform
GPT-4. We also show effective continual learning of tools via a simple
experience replay strategy.