ChatPaper.aiChatPaper

Преимущества и подводные камни обучения с подкреплением для планирования языковых моделей: теоретический взгляд

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

September 26, 2025
Авторы: Siwei Wang, Yifei Shen, Haoran Sun, Shi Feng, Shang-Hua Teng, Li Dong, Yaru Hao, Wei Chen
cs.AI

Аннотация

Недавние методы обучения с подкреплением (RL) значительно улучшили способности крупных языковых моделей (LLM) к планированию, однако теоретическая основа их эффективности остается неясной. В данной работе мы исследуем преимущества и ограничения RL через доступную для анализа графовую абстракцию, сосредоточившись на методах градиента политики (PG) и Q-обучения. Наши теоретические анализы показывают, что тонкая настройка с учителем (SFT) может вводить ложные решения, основанные на совместной встречаемости, тогда как RL достигает корректного планирования в основном через исследование, подчеркивая роль исследования в обеспечении лучшей обобщаемости. Однако мы также показываем, что PG страдает от коллапса разнообразия, где разнообразие выходных данных уменьшается в процессе обучения и сохраняется даже после достижения идеальной точности. В отличие от этого, Q-обучение предоставляет два ключевых преимущества: обучение вне политики и сохранение разнообразия при сходимости. Мы также демонстрируем, что тщательное проектирование наград необходимо для предотвращения "взлома наград" в Q-обучении. Наконец, применяя наш подход к реальному бенчмарку планирования Blocksworld, мы подтверждаем, что эти поведенческие особенности проявляются на практике.
English
Recent reinforcement learning (RL) methods have substantially enhanced the planning capabilities of Large Language Models (LLMs), yet the theoretical basis for their effectiveness remains elusive. In this work, we investigate RL's benefits and limitations through a tractable graph-based abstraction, focusing on policy gradient (PG) and Q-learning methods. Our theoretical analyses reveal that supervised fine-tuning (SFT) may introduce co-occurrence-based spurious solutions, whereas RL achieves correct planning primarily through exploration, underscoring exploration's role in enabling better generalization. However, we also show that PG suffers from diversity collapse, where output diversity decreases during training and persists even after perfect accuracy is attained. By contrast, Q-learning provides two key advantages: off-policy learning and diversity preservation at convergence. We further demonstrate that careful reward design is necessary to prevent reward hacking in Q-learning. Finally, applying our framework to the real-world planning benchmark Blocksworld, we confirm that these behaviors manifest in practice.
PDF41October 1, 2025