ChatPaper.aiChatPaper

Los LLM son agentes codiciosos: Efectos del ajuste fino con RL en las capacidades de toma de decisiones

LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

April 22, 2025
Autores: Thomas Schmied, Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu
cs.AI

Resumen

El éxito de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) ha despertado interés en diversas aplicaciones agentivas. Una hipótesis clave es que los LLMs, aprovechando el sentido común y el razonamiento en Cadena de Pensamiento (CoT, por sus siglas en inglés), pueden explorar y resolver eficientemente dominios complejos. Sin embargo, se ha observado que los agentes basados en LLMs sufren de una exploración subóptima y la brecha entre saber y hacer, es decir, la incapacidad de actuar de manera efectiva sobre el conocimiento presente en el modelo. En este trabajo, estudiamos sistemáticamente por qué los LLMs tienen un desempeño subóptimo en escenarios de toma de decisiones. En particular, examinamos de cerca tres modos de fallo prevalentes: la avaricia, el sesgo de frecuencia y la brecha entre saber y hacer. Proponemos mitigar estas deficiencias mediante el ajuste fino mediante Aprendizaje por Refuerzo (RL, por sus siglas en inglés) sobre racionales CoT generados automáticamente. Nuestros experimentos en bandidos multi-brazo, bandidos contextuales y el juego del tres en raya demuestran que el ajuste fino con RL mejora las capacidades de toma de decisiones de los LLMs al aumentar la exploración y reducir la brecha entre saber y hacer. Finalmente, estudiamos tanto mecanismos clásicos de exploración, como el enfoque épsilon-avaricioso, como enfoques específicos para LLMs, como la autocorrección y la auto-consistencia, para permitir un ajuste fino más efectivo de los LLMs en la toma de decisiones.
English
The success of Large Language Models (LLMs) has sparked interest in various agentic applications. A key hypothesis is that LLMs, leveraging common sense and Chain-of-Thought (CoT) reasoning, can effectively explore and efficiently solve complex domains. However, LLM agents have been found to suffer from sub-optimal exploration and the knowing-doing gap, the inability to effectively act on knowledge present in the model. In this work, we systematically study why LLMs perform sub-optimally in decision-making scenarios. In particular, we closely examine three prevalent failure modes: greediness, frequency bias, and the knowing-doing gap. We propose mitigation of these shortcomings by fine-tuning via Reinforcement Learning (RL) on self-generated CoT rationales. Our experiments across multi-armed bandits, contextual bandits, and Tic-tac-toe, demonstrate that RL fine-tuning enhances the decision-making abilities of LLMs by increasing exploration and narrowing the knowing-doing gap. Finally, we study both classic exploration mechanisms, such as epsilon-greedy, and LLM-specific approaches, such as self-correction and self-consistency, to enable more effective fine-tuning of LLMs for decision-making.

Summary

AI-Generated Summary

PDF203April 23, 2025