LLM — это жадные агенты: влияние тонкой настройки с помощью обучения с подкреплением на способность принимать решения
LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities
April 22, 2025
Авторы: Thomas Schmied, Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu
cs.AI
Аннотация
Успех крупных языковых моделей (LLM) вызвал интерес к различным агентным приложениям. Ключевая гипотеза заключается в том, что LLM, используя здравый смысл и рассуждения по цепочке мыслей (Chain-of-Thought, CoT), могут эффективно исследовать и решать сложные задачи. Однако было обнаружено, что LLM-агенты страдают от субоптимального исследования и разрыва между знанием и действием (knowing-doing gap), то есть неспособности эффективно применять знания, присутствующие в модели. В данной работе мы систематически изучаем, почему LLM демонстрируют субоптимальные результаты в сценариях принятия решений. В частности, мы подробно рассматриваем три распространённых типа сбоев: жадность, частотное смещение и разрыв между знанием и действием. Мы предлагаем устранить эти недостатки с помощью тонкой настройки методом обучения с подкреплением (Reinforcement Learning, RL) на основе самостоятельно сгенерированных CoT-рассуждений. Наши эксперименты с многорукими бандитами, контекстными бандитами и крестиками-ноликами демонстрируют, что тонкая настройка с помощью RL улучшает способность LLM принимать решения за счёт увеличения исследования и сокращения разрыва между знанием и действием. Наконец, мы изучаем как классические механизмы исследования, такие как эпсилон-жадность, так и специфические для LLM подходы, такие как самокоррекция и самосогласованность, чтобы обеспечить более эффективную тонкую настройку LLM для принятия решений.
English
The success of Large Language Models (LLMs) has sparked interest in various
agentic applications. A key hypothesis is that LLMs, leveraging common sense
and Chain-of-Thought (CoT) reasoning, can effectively explore and efficiently
solve complex domains. However, LLM agents have been found to suffer from
sub-optimal exploration and the knowing-doing gap, the inability to effectively
act on knowledge present in the model. In this work, we systematically study
why LLMs perform sub-optimally in decision-making scenarios. In particular, we
closely examine three prevalent failure modes: greediness, frequency bias, and
the knowing-doing gap. We propose mitigation of these shortcomings by
fine-tuning via Reinforcement Learning (RL) on self-generated CoT rationales.
Our experiments across multi-armed bandits, contextual bandits, and
Tic-tac-toe, demonstrate that RL fine-tuning enhances the decision-making
abilities of LLMs by increasing exploration and narrowing the knowing-doing
gap. Finally, we study both classic exploration mechanisms, such as
epsilon-greedy, and LLM-specific approaches, such as self-correction and
self-consistency, to enable more effective fine-tuning of LLMs for
decision-making.Summary
AI-Generated Summary