ChatPaper.aiChatPaper

Les LLM sont des agents avides : Effets du fine-tuning par apprentissage par renforcement sur les capacités de prise de décision

LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

April 22, 2025
Auteurs: Thomas Schmied, Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu
cs.AI

Résumé

Le succès des modèles de langage de grande taille (LLMs) a suscité un intérêt pour diverses applications agentiques. Une hypothèse clé est que les LLMs, en tirant parti du bon sens et du raisonnement en chaîne de pensée (Chain-of-Thought, CoT), peuvent explorer efficacement et résoudre de manière efficiente des domaines complexes. Cependant, il a été observé que les agents basés sur les LLMs souffrent d'une exploration sous-optimale et du fossé savoir-faire, c'est-à-dire de l'incapacité à agir efficacement sur les connaissances présentes dans le modèle. Dans ce travail, nous étudions systématiquement pourquoi les LLMs performent de manière sous-optimale dans des scénarios de prise de décision. En particulier, nous examinons de près trois modes d'échec prévalents : l'avarice, le biais de fréquence et le fossé savoir-faire. Nous proposons d'atténuer ces lacunes par un ajustement fin via l'apprentissage par renforcement (Reinforcement Learning, RL) sur des justifications CoT auto-générées. Nos expériences, menées sur des bandits multi-bras, des bandits contextuels et le jeu de Tic-tac-toe, démontrent que l'ajustement fin par RL améliore les capacités de prise de décision des LLMs en augmentant l'exploration et en réduisant le fossé savoir-faire. Enfin, nous étudions à la fois des mécanismes classiques d'exploration, tels que l'epsilon-greedy, et des approches spécifiques aux LLMs, comme l'auto-correction et l'auto-cohérence, pour permettre un ajustement fin plus efficace des LLMs pour la prise de décision.
English
The success of Large Language Models (LLMs) has sparked interest in various agentic applications. A key hypothesis is that LLMs, leveraging common sense and Chain-of-Thought (CoT) reasoning, can effectively explore and efficiently solve complex domains. However, LLM agents have been found to suffer from sub-optimal exploration and the knowing-doing gap, the inability to effectively act on knowledge present in the model. In this work, we systematically study why LLMs perform sub-optimally in decision-making scenarios. In particular, we closely examine three prevalent failure modes: greediness, frequency bias, and the knowing-doing gap. We propose mitigation of these shortcomings by fine-tuning via Reinforcement Learning (RL) on self-generated CoT rationales. Our experiments across multi-armed bandits, contextual bandits, and Tic-tac-toe, demonstrate that RL fine-tuning enhances the decision-making abilities of LLMs by increasing exploration and narrowing the knowing-doing gap. Finally, we study both classic exploration mechanisms, such as epsilon-greedy, and LLM-specific approaches, such as self-correction and self-consistency, to enable more effective fine-tuning of LLMs for decision-making.

Summary

AI-Generated Summary

PDF203April 23, 2025