Esplorazione Bootstrap con Feedback in Linguaggio Naturale a Livello di Gruppo nell'Apprendimento per Rinforzo

Abstract

I grandi modelli linguistici (LLM) ricevono tipicamente feedback diversificati in linguaggio naturale (NL) attraverso l'interazione con l'ambiente. Tuttavia, gli attuali algoritmi di apprendimento per rinforzo (RL) si basano esclusivamente su ricompense scalari, lasciando sotto-utilizzate le ricche informazioni contenute nel feedback NL e portando a un'esplorazione inefficiente. In questo lavoro, proponiamo GOLF, un framework RL che sfrutta esplicitamente il feedback linguistico a livello di gruppo per guidare un'esplorazione mirata attraverso raffinamenti azionabili. GOLF aggrega due fonti di feedback complementari: (i) critiche esterne che individuano errori o propongono correzioni mirate, e (ii) tentativi intra-gruppo che forniscono idee parziali alternative e pattern di fallimento diversificati. Questi feedback a livello di gruppo vengono aggregati per produrre raffinamenti di alta qualità, che vengono iniettati in modo adattivo nell'addestramento come impalcature off-policy per fornire una guida mirata nelle regioni a ricompensa sparsa. Nel frattempo, GOLF ottimizza congiuntamente la generazione e il raffinamento all'interno di un ciclo RL unificato, creando un circolo virtuoso che migliora continuamente entrambe le capacità. Esperimenti su benchmark verificabili e non verificabili mostrano che GOLF raggiunge prestazioni e efficienza di esplorazione superiori, ottenendo un miglioramento di 2,2 volte nell'efficienza campionaria rispetto ai metodi RL addestrati esclusivamente su ricompense scalari. Il codice è disponibile all'indirizzo https://github.com/LuckyyySTA/GOLF.

English

Large language models (LLMs) typically receive diverse natural language (NL) feedback through interaction with the environment. However, current reinforcement learning (RL) algorithms rely solely on scalar rewards, leaving the rich information in NL feedback underutilized and leading to inefficient exploration. In this work, we propose GOLF, an RL framework that explicitly exploits group-level language feedback to guide targeted exploration through actionable refinements. GOLF aggregates two complementary feedback sources: (i) external critiques that pinpoint errors or propose targeted fixes, and (ii) intra-group attempts that supply alternative partial ideas and diverse failure patterns. These group-level feedbacks are aggregated to produce high-quality refinements, which are adaptively injected into training as off-policy scaffolds to provide targeted guidance in sparse-reward regions. Meanwhile, GOLF jointly optimizes generation and refinement within a unified RL loop, creating a virtuous cycle that continuously improves both capabilities. Experiments on both verifiable and non-verifiable benchmarks show that GOLF achieves superior performance and exploration efficiency, achieving 2.2times improvements in sample efficiency compared to RL methods trained solely on scalar rewards. Code is available at https://github.com/LuckyyySTA/GOLF.

Esplorazione Bootstrap con Feedback in Linguaggio Naturale a Livello di Gruppo nell'Apprendimento per Rinforzo

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Abstract

Support