Усиление исследования с помощью групповой обратной связи на естественном языке в обучении с подкреплением

Аннотация

Крупные языковые модели (LLM) обычно получают разнообразную обратную связь на естественном языке (ЕЯ) в процессе взаимодействия со средой. Однако современные алгоритмы обучения с подкреплением (RL) полагаются исключительно на скалярные вознаграждения, что оставляет богатую информацию в текстовой обратной связи неиспользованной и приводит к неэффективному исследованию среды. В данной работе мы предлагаем GOLF — RL-фреймворк, который явно использует групповую языковую обратную связь для целенаправленного исследования среды через практические уточнения. GOLF агрегирует два взаимодополняющих источника обратной связи: (i) внешние критические замечания, которые выявляют ошибки или предлагают целевые исправления, и (ii) внутригрупповые попытки, которые предоставляют альтернативные частичные идеи и разнообразные паттерны неудач. Эти групповые обратные связи агрегируются для создания высококачественных уточнений, которые адаптивно внедряются в процесс обучения в качестве внестратегичных "строительных лесов" для предоставления целевых указаний в областях с разреженными вознаграждениями. При этом GOLF совместно оптимизирует генерацию и уточнение в рамках единого RL-цикла, создавая virtuous cycle, который непрерывно улучшает обе способности. Эксперименты на верифицируемых и неверифицируемых бенчмарках показывают, что GOLF демонстрирует превосходную производительность и эффективность исследования, достигая 2.2-кратного улучшения в эффективности использования образцов по сравнению с RL-методами, обученными только на скалярных вознаграждениях. Код доступен по адресу https://github.com/LuckyyySTA/GOLF.

English

Large language models (LLMs) typically receive diverse natural language (NL) feedback through interaction with the environment. However, current reinforcement learning (RL) algorithms rely solely on scalar rewards, leaving the rich information in NL feedback underutilized and leading to inefficient exploration. In this work, we propose GOLF, an RL framework that explicitly exploits group-level language feedback to guide targeted exploration through actionable refinements. GOLF aggregates two complementary feedback sources: (i) external critiques that pinpoint errors or propose targeted fixes, and (ii) intra-group attempts that supply alternative partial ideas and diverse failure patterns. These group-level feedbacks are aggregated to produce high-quality refinements, which are adaptively injected into training as off-policy scaffolds to provide targeted guidance in sparse-reward regions. Meanwhile, GOLF jointly optimizes generation and refinement within a unified RL loop, creating a virtuous cycle that continuously improves both capabilities. Experiments on both verifiable and non-verifiable benchmarks show that GOLF achieves superior performance and exploration efficiency, achieving 2.2times improvements in sample efficiency compared to RL methods trained solely on scalar rewards. Code is available at https://github.com/LuckyyySTA/GOLF.

Усиление исследования с помощью групповой обратной связи на естественном языке в обучении с подкреплением

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Аннотация

Support