Impulsionando a Exploração com Feedback em Linguagem Natural a Nível de Grupo em Aprendizagem por Reforço

Resumo

Os grandes modelos de linguagem (LLMs) normalmente recebem diversos tipos de feedback em linguagem natural (NL) através da interação com o ambiente. No entanto, os algoritmos atuais de aprendizagem por reforço (RL) dependem exclusivamente de recompensas escalares, deixando as ricas informações contidas no feedback em NL subutilizadas e resultando em uma exploração ineficiente. Neste trabalho, propomos o GOLF, uma estrutura de RL que explora explicitamente o feedback linguístico em nível de grupo para orientar uma exploração direcionada por meio de refinamentos acionáveis. O GOLF agrega duas fontes complementares de feedback: (i) críticas externas que identificam erros ou propõem correções direcionadas, e (ii) tentativas intra-grupo que fornecem ideias parciais alternativas e diversos padrões de falha. Esses feedbacks em nível de grupo são agregados para produzir refinamentos de alta qualidade, que são injetados de forma adaptativa no treinamento como andaimes *off-policy* para fornecer orientação direcionada em regiões de recompensa esparsa. Enquanto isso, o GOLF otimiza conjuntamente a geração e o refinamento dentro de um ciclo unificado de RL, criando um ciclo virtuoso que melhora continuamente ambas as capacidades. Experimentos em benchmarks verificáveis e não verificáveis mostram que o GOLF alcança desempenho superior e eficiência de exploração, obtendo melhorias de 2,2 vezes na eficiência amostral em comparação com métodos de RL treinados apenas com recompensas escalares. O código está disponível em https://github.com/LuckyyySTA/GOLF.

English

Large language models (LLMs) typically receive diverse natural language (NL) feedback through interaction with the environment. However, current reinforcement learning (RL) algorithms rely solely on scalar rewards, leaving the rich information in NL feedback underutilized and leading to inefficient exploration. In this work, we propose GOLF, an RL framework that explicitly exploits group-level language feedback to guide targeted exploration through actionable refinements. GOLF aggregates two complementary feedback sources: (i) external critiques that pinpoint errors or propose targeted fixes, and (ii) intra-group attempts that supply alternative partial ideas and diverse failure patterns. These group-level feedbacks are aggregated to produce high-quality refinements, which are adaptively injected into training as off-policy scaffolds to provide targeted guidance in sparse-reward regions. Meanwhile, GOLF jointly optimizes generation and refinement within a unified RL loop, creating a virtuous cycle that continuously improves both capabilities. Experiments on both verifiable and non-verifiable benchmarks show that GOLF achieves superior performance and exploration efficiency, achieving 2.2times improvements in sample efficiency compared to RL methods trained solely on scalar rewards. Code is available at https://github.com/LuckyyySTA/GOLF.

Impulsionando a Exploração com Feedback em Linguagem Natural a Nível de Grupo em Aprendizagem por Reforço

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Resumo

Support