LLMs são Agentes Gananciosos: Efeitos do Ajuste Fino com RL nas Habilidades de Tomada de Decisão
LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities
April 22, 2025
Autores: Thomas Schmied, Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu
cs.AI
Resumo
O sucesso dos Modelos de Linguagem de Grande Escala (LLMs) despertou interesse em várias aplicações agentivas. Uma hipótese fundamental é que os LLMs, ao aproveitar o senso comum e o raciocínio em Cadeia de Pensamento (CoT), podem explorar e resolver de forma eficiente domínios complexos. No entanto, constatou-se que os agentes baseados em LLMs sofrem com exploração subótima e a lacuna entre saber e agir, ou seja, a incapacidade de agir efetivamente com base no conhecimento presente no modelo. Neste trabalho, estudamos sistematicamente por que os LLMs têm desempenho subótimo em cenários de tomada de decisão. Em particular, examinamos de perto três modos de falha prevalentes: a ganância, o viés de frequência e a lacuna entre saber e agir. Propomos a mitigação dessas deficiências por meio de ajuste fino via Aprendizado por Reforço (RL) em racionais CoT autogerados. Nossos experimentos em bandidos multi-armados, bandidos contextuais e jogo da velha demonstram que o ajuste fino com RL aprimora as habilidades de tomada de decisão dos LLMs, aumentando a exploração e reduzindo a lacuna entre saber e agir. Por fim, estudamos tanto mecanismos clássicos de exploração, como o epsilon-ganancioso, quanto abordagens específicas para LLMs, como autocorreção e autoconsistência, para permitir um ajuste fino mais eficaz dos LLMs para tomada de decisão.
English
The success of Large Language Models (LLMs) has sparked interest in various
agentic applications. A key hypothesis is that LLMs, leveraging common sense
and Chain-of-Thought (CoT) reasoning, can effectively explore and efficiently
solve complex domains. However, LLM agents have been found to suffer from
sub-optimal exploration and the knowing-doing gap, the inability to effectively
act on knowledge present in the model. In this work, we systematically study
why LLMs perform sub-optimally in decision-making scenarios. In particular, we
closely examine three prevalent failure modes: greediness, frequency bias, and
the knowing-doing gap. We propose mitigation of these shortcomings by
fine-tuning via Reinforcement Learning (RL) on self-generated CoT rationales.
Our experiments across multi-armed bandits, contextual bandits, and
Tic-tac-toe, demonstrate that RL fine-tuning enhances the decision-making
abilities of LLMs by increasing exploration and narrowing the knowing-doing
gap. Finally, we study both classic exploration mechanisms, such as
epsilon-greedy, and LLM-specific approaches, such as self-correction and
self-consistency, to enable more effective fine-tuning of LLMs for
decision-making.Summary
AI-Generated Summary