Potenciación de la Exploración mediante Retroalimentación en Lenguaje Natural a Nivel Grupal en Aprendizaje por Refuerzo

Resumen

Los modelos de lenguaje extenso (LLM) suelen recibir diversos comentarios en lenguaje natural (LN) mediante la interacción con el entorno. Sin embargo, los algoritmos actuales de aprendizaje por refuerzo (RL) dependen únicamente de recompensas escalares, dejando la rica información de los comentarios en LN subutilizada y generando una exploración ineficiente. En este trabajo, proponemos GOLF, un marco de RL que explícitamente aprovecha los comentarios lingüísticos a nivel grupal para guiar una exploración dirigida mediante refinamientos accionables. GOLF agrega dos fuentes de comentarios complementarias: (i) críticas externas que identifican errores o proponen correcciones específicas, y (ii) intentos intragrupales que aportan ideas parciales alternativas y diversos patrones de fallo. Estos comentarios a nivel grupal se agregan para producir refinamientos de alta calidad, que se inyectan de manera adaptativa en el entrenamiento como andamiajes fuera de política para proporcionar orientación específica en regiones de recompensa dispersa. Mientras tanto, GOLF optimiza conjuntamente la generación y el refinamiento dentro de un ciclo de RL unificado, creando un ciclo virtuoso que mejora continuamente ambas capacidades. Los experimentos en benchmarks verificables y no verificables muestran que GOLF logra un rendimiento y una eficiencia de exploración superiores, alcanzando mejoras de 2.2 veces en la eficiencia muestral en comparación con los métodos de RL entrenados únicamente con recompensas escalares. El código está disponible en https://github.com/LuckyyySTA/GOLF.

English

Large language models (LLMs) typically receive diverse natural language (NL) feedback through interaction with the environment. However, current reinforcement learning (RL) algorithms rely solely on scalar rewards, leaving the rich information in NL feedback underutilized and leading to inefficient exploration. In this work, we propose GOLF, an RL framework that explicitly exploits group-level language feedback to guide targeted exploration through actionable refinements. GOLF aggregates two complementary feedback sources: (i) external critiques that pinpoint errors or propose targeted fixes, and (ii) intra-group attempts that supply alternative partial ideas and diverse failure patterns. These group-level feedbacks are aggregated to produce high-quality refinements, which are adaptively injected into training as off-policy scaffolds to provide targeted guidance in sparse-reward regions. Meanwhile, GOLF jointly optimizes generation and refinement within a unified RL loop, creating a virtuous cycle that continuously improves both capabilities. Experiments on both verifiable and non-verifiable benchmarks show that GOLF achieves superior performance and exploration efficiency, achieving 2.2times improvements in sample efficiency compared to RL methods trained solely on scalar rewards. Code is available at https://github.com/LuckyyySTA/GOLF.

Potenciación de la Exploración mediante Retroalimentación en Lenguaje Natural a Nivel Grupal en Aprendizaje por Refuerzo

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Resumen

Support