ChatPaper.aiChatPaper

LLMs são Agentes Gananciosos: Efeitos do Ajuste Fino com RL nas Habilidades de Tomada de Decisão

LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

April 22, 2025
Autores: Thomas Schmied, Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu
cs.AI

Resumo

O sucesso dos Modelos de Linguagem de Grande Escala (LLMs) despertou interesse em várias aplicações agentivas. Uma hipótese fundamental é que os LLMs, ao aproveitar o senso comum e o raciocínio em Cadeia de Pensamento (CoT), podem explorar e resolver de forma eficiente domínios complexos. No entanto, constatou-se que os agentes baseados em LLMs sofrem com exploração subótima e a lacuna entre saber e agir, ou seja, a incapacidade de agir efetivamente com base no conhecimento presente no modelo. Neste trabalho, estudamos sistematicamente por que os LLMs têm desempenho subótimo em cenários de tomada de decisão. Em particular, examinamos de perto três modos de falha prevalentes: a ganância, o viés de frequência e a lacuna entre saber e agir. Propomos a mitigação dessas deficiências por meio de ajuste fino via Aprendizado por Reforço (RL) em racionais CoT autogerados. Nossos experimentos em bandidos multi-armados, bandidos contextuais e jogo da velha demonstram que o ajuste fino com RL aprimora as habilidades de tomada de decisão dos LLMs, aumentando a exploração e reduzindo a lacuna entre saber e agir. Por fim, estudamos tanto mecanismos clássicos de exploração, como o epsilon-ganancioso, quanto abordagens específicas para LLMs, como autocorreção e autoconsistência, para permitir um ajuste fino mais eficaz dos LLMs para tomada de decisão.
English
The success of Large Language Models (LLMs) has sparked interest in various agentic applications. A key hypothesis is that LLMs, leveraging common sense and Chain-of-Thought (CoT) reasoning, can effectively explore and efficiently solve complex domains. However, LLM agents have been found to suffer from sub-optimal exploration and the knowing-doing gap, the inability to effectively act on knowledge present in the model. In this work, we systematically study why LLMs perform sub-optimally in decision-making scenarios. In particular, we closely examine three prevalent failure modes: greediness, frequency bias, and the knowing-doing gap. We propose mitigation of these shortcomings by fine-tuning via Reinforcement Learning (RL) on self-generated CoT rationales. Our experiments across multi-armed bandits, contextual bandits, and Tic-tac-toe, demonstrate that RL fine-tuning enhances the decision-making abilities of LLMs by increasing exploration and narrowing the knowing-doing gap. Finally, we study both classic exploration mechanisms, such as epsilon-greedy, and LLM-specific approaches, such as self-correction and self-consistency, to enable more effective fine-tuning of LLMs for decision-making.

Summary

AI-Generated Summary

PDF203April 23, 2025