LLMs sind gierige Agenten: Auswirkungen von RL-Feintuning auf Entscheidungsfähigkeiten
LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities
April 22, 2025
Autoren: Thomas Schmied, Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu
cs.AI
Zusammenfassung
Der Erfolg von Large Language Models (LLMs) hat das Interesse an verschiedenen agentenbasierten Anwendungen geweckt. Eine zentrale Hypothese ist, dass LLMs, die gesunden Menschenverstand und Chain-of-Thought (CoT)-Argumentation nutzen, komplexe Domänen effektiv erkunden und effizient lösen können. Es wurde jedoch festgestellt, dass LLM-Agenten unter suboptimaler Exploration und der sogenannten Knowing-Doing-Gap leiden, also der Unfähigkeit, effektiv auf das im Modell vorhandene Wissen zu reagieren. In dieser Arbeit untersuchen wir systematisch, warum LLMs in Entscheidungsszenarien suboptimal abschneiden. Insbesondere betrachten wir drei häufige Fehlermodi: Gier, Häufigkeitsbias und die Knowing-Doing-Gap. Wir schlagen vor, diese Schwächen durch Feinabstimmung mittels Reinforcement Learning (RL) auf selbstgenerierten CoT-Begründungen zu mildern. Unsere Experimente mit Multi-Armed Bandits, kontextuellen Bandits und Tic-Tac-Toe zeigen, dass RL-Feinabstimmung die Entscheidungsfähigkeiten von LLMs verbessert, indem sie die Exploration erhöht und die Knowing-Doing-Gap verringert. Schließlich untersuchen wir sowohl klassische Explorationsmechanismen wie Epsilon-Greedy als auch LLM-spezifische Ansätze wie Selbstkorrektur und Selbstkonsistenz, um eine effektivere Feinabstimmung von LLMs für Entscheidungsfindung zu ermöglichen.
English
The success of Large Language Models (LLMs) has sparked interest in various
agentic applications. A key hypothesis is that LLMs, leveraging common sense
and Chain-of-Thought (CoT) reasoning, can effectively explore and efficiently
solve complex domains. However, LLM agents have been found to suffer from
sub-optimal exploration and the knowing-doing gap, the inability to effectively
act on knowledge present in the model. In this work, we systematically study
why LLMs perform sub-optimally in decision-making scenarios. In particular, we
closely examine three prevalent failure modes: greediness, frequency bias, and
the knowing-doing gap. We propose mitigation of these shortcomings by
fine-tuning via Reinforcement Learning (RL) on self-generated CoT rationales.
Our experiments across multi-armed bandits, contextual bandits, and
Tic-tac-toe, demonstrate that RL fine-tuning enhances the decision-making
abilities of LLMs by increasing exploration and narrowing the knowing-doing
gap. Finally, we study both classic exploration mechanisms, such as
epsilon-greedy, and LLM-specific approaches, such as self-correction and
self-consistency, to enable more effective fine-tuning of LLMs for
decision-making.Summary
AI-Generated Summary