Amélioration de l'Exploration par Amorçage avec Retour d'Information en Langage Naturel au Niveau du Groupe dans l'Apprentissage par Renforcement

Résumé

Les grands modèles de langage (LLM) reçoivent généralement des retours en langage naturel variés via leurs interactions avec l'environnement. Cependant, les algorithmes d'apprentissage par renforcement (RL) actuels s'appuient exclusivement sur des récompenses scalaires, laissant sous-utilisées les informations riches contenues dans les retours en langage naturel et conduisant à une exploration inefficace. Dans ce travail, nous proposons GOLF, un cadre RL qui exploite explicitement les retours langagiers au niveau du groupe pour guider l'exploration ciblée via des améliorations actionnables. GOLF agrège deux sources de retours complémentaires : (i) les critiques externes qui identifient les erreurs ou proposent des corrections ciblées, et (ii) les tentatives intra-groupe qui fournissent des idées partielles alternatives et divers modèles d'échec. Ces retours au niveau du groupe sont agrégés pour produire des améliorations de haute qualité, qui sont injectées de manière adaptative dans l'entraînement comme échafaudages hors politique pour fournir un guidage ciblé dans les régions à récompense éparse. Parallèlement, GOLF optimise conjointement la génération et l'amélioration dans une boucle RL unifiée, créant un cercle vertueux qui améliore continuellement les deux capacités. Les expériences sur des benchmarks vérifiables et non vérifiables montrent que GOLF atteint des performances et une efficacité d'exploration supérieures, obtenant une amélioration de 2,2 fois l'efficacité d'échantillonnage par rapport aux méthodes RL entraînées uniquement sur des récompenses scalaires. Le code est disponible à l'adresse https://github.com/LuckyyySTA/GOLF.

English

Large language models (LLMs) typically receive diverse natural language (NL) feedback through interaction with the environment. However, current reinforcement learning (RL) algorithms rely solely on scalar rewards, leaving the rich information in NL feedback underutilized and leading to inefficient exploration. In this work, we propose GOLF, an RL framework that explicitly exploits group-level language feedback to guide targeted exploration through actionable refinements. GOLF aggregates two complementary feedback sources: (i) external critiques that pinpoint errors or propose targeted fixes, and (ii) intra-group attempts that supply alternative partial ideas and diverse failure patterns. These group-level feedbacks are aggregated to produce high-quality refinements, which are adaptively injected into training as off-policy scaffolds to provide targeted guidance in sparse-reward regions. Meanwhile, GOLF jointly optimizes generation and refinement within a unified RL loop, creating a virtuous cycle that continuously improves both capabilities. Experiments on both verifiable and non-verifiable benchmarks show that GOLF achieves superior performance and exploration efficiency, achieving 2.2times improvements in sample efficiency compared to RL methods trained solely on scalar rewards. Code is available at https://github.com/LuckyyySTA/GOLF.

Amélioration de l'Exploration par Amorçage avec Retour d'Information en Langage Naturel au Niveau du Groupe dans l'Apprentissage par Renforcement

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Résumé

Support