강화 학습에서 그룹 수준 자연어 피드백을 활용한 탐색 부트스트래핑
Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning
March 4, 2026
저자: Lei Huang, Xiang Cheng, Chenxiao Zhao, Guobin Shen, Junjie Yang, Xiaocheng Feng, Yuxuan Gu, Xing Yu, Bing Qin
cs.AI
초록
대규모 언어 모델(LLM)은 일반적으로 환경과의 상호작용을 통해 다양한 자연어(NL) 피드백을 수신합니다. 그러나 현재의 강화 학습(RL) 알고리즘은 스칼라 보상에만 의존하여 NL 피드백의 풍부한 정보를 제대로 활용하지 못하고 비효율적인 탐색을 초래합니다. 본 연구에서는 그룹 수준 언어 피드백을 명시적으로 활용하여 실행 가능한 개선점을 통해 목표 지향적 탐색을 유도하는 RL 프레임워크인 GOLF를 제안합니다. GOLF는 두 가지 상호 보완적인 피드백 소스를 통합합니다: (i) 오류를 지적하거나 대상별 수정을 제안하는 외부 비평과 (ii) 대체 부분 아이디어와 다양한 실패 패턴을 제공하는 그룹 내 시도. 이러한 그룹 수준 피드백은 고품질 개선점을 생성하기 위해 통합되며, 이는 오프-폴리시 스캐폴드로 훈련 과정에 적응적으로 주입되어 희소 보상 영역에서 대상별 지침을 제공합니다. 동시에 GOLF는 통합 RL 루프 내에서 생성과 개선을 공동으로 최적화하여 두 능력을 지속적으로 향상시키는 선순환을 만듭니다. 검증 가능 및 비검증 가능 벤치마크에서의 실험 결과, GOLF가 우수한 성능과 탐색 효율을 달성하며 스칼라 보상만으로 훈련된 RL 방법 대비 2.2배의 샘플 효율 향상을 보였습니다. 코드는 https://github.com/LuckyyySTA/GOLF에서 확인할 수 있습니다.
English
Large language models (LLMs) typically receive diverse natural language (NL) feedback through interaction with the environment. However, current reinforcement learning (RL) algorithms rely solely on scalar rewards, leaving the rich information in NL feedback underutilized and leading to inefficient exploration. In this work, we propose GOLF, an RL framework that explicitly exploits group-level language feedback to guide targeted exploration through actionable refinements. GOLF aggregates two complementary feedback sources: (i) external critiques that pinpoint errors or propose targeted fixes, and (ii) intra-group attempts that supply alternative partial ideas and diverse failure patterns. These group-level feedbacks are aggregated to produce high-quality refinements, which are adaptively injected into training as off-policy scaffolds to provide targeted guidance in sparse-reward regions. Meanwhile, GOLF jointly optimizes generation and refinement within a unified RL loop, creating a virtuous cycle that continuously improves both capabilities. Experiments on both verifiable and non-verifiable benchmarks show that GOLF achieves superior performance and exploration efficiency, achieving 2.2times improvements in sample efficiency compared to RL methods trained solely on scalar rewards. Code is available at https://github.com/LuckyyySTA/GOLF.