LLMs sind gierige Agenten: Auswirkungen von RL-Feintuning auf Entscheidungsfähigkeiten

papers.abstract

Der Erfolg von Large Language Models (LLMs) hat das Interesse an verschiedenen agentenbasierten Anwendungen geweckt. Eine zentrale Hypothese ist, dass LLMs, die gesunden Menschenverstand und Chain-of-Thought (CoT)-Argumentation nutzen, komplexe Domänen effektiv erkunden und effizient lösen können. Es wurde jedoch festgestellt, dass LLM-Agenten unter suboptimaler Exploration und der sogenannten Knowing-Doing-Gap leiden, also der Unfähigkeit, effektiv auf das im Modell vorhandene Wissen zu reagieren. In dieser Arbeit untersuchen wir systematisch, warum LLMs in Entscheidungsszenarien suboptimal abschneiden. Insbesondere betrachten wir drei häufige Fehlermodi: Gier, Häufigkeitsbias und die Knowing-Doing-Gap. Wir schlagen vor, diese Schwächen durch Feinabstimmung mittels Reinforcement Learning (RL) auf selbstgenerierten CoT-Begründungen zu mildern. Unsere Experimente mit Multi-Armed Bandits, kontextuellen Bandits und Tic-Tac-Toe zeigen, dass RL-Feinabstimmung die Entscheidungsfähigkeiten von LLMs verbessert, indem sie die Exploration erhöht und die Knowing-Doing-Gap verringert. Schließlich untersuchen wir sowohl klassische Explorationsmechanismen wie Epsilon-Greedy als auch LLM-spezifische Ansätze wie Selbstkorrektur und Selbstkonsistenz, um eine effektivere Feinabstimmung von LLMs für Entscheidungsfindung zu ermöglichen.

English

The success of Large Language Models (LLMs) has sparked interest in various agentic applications. A key hypothesis is that LLMs, leveraging common sense and Chain-of-Thought (CoT) reasoning, can effectively explore and efficiently solve complex domains. However, LLM agents have been found to suffer from sub-optimal exploration and the knowing-doing gap, the inability to effectively act on knowledge present in the model. In this work, we systematically study why LLMs perform sub-optimally in decision-making scenarios. In particular, we closely examine three prevalent failure modes: greediness, frequency bias, and the knowing-doing gap. We propose mitigation of these shortcomings by fine-tuning via Reinforcement Learning (RL) on self-generated CoT rationales. Our experiments across multi-armed bandits, contextual bandits, and Tic-tac-toe, demonstrate that RL fine-tuning enhances the decision-making abilities of LLMs by increasing exploration and narrowing the knowing-doing gap. Finally, we study both classic exploration mechanisms, such as epsilon-greedy, and LLM-specific approaches, such as self-correction and self-consistency, to enable more effective fine-tuning of LLMs for decision-making.

LLMs sind gierige Agenten: Auswirkungen von RL-Feintuning auf Entscheidungsfähigkeiten

LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

papers.abstract

Support