Esplorazione Efficiente su Larga Scala
Efficient Exploration at Scale
March 18, 2026
Autori: Seyed Mohammad Asghari, Chris Chute, Vikranth Dwaracherla, Xiuyuan Lu, Mehdi Jafarnia, Victor Minden, Zheng Wen, Benjamin Van Roy
cs.AI
Abstract
Sviluppiamo un algoritmo di apprendimento online che migliora drasticamente l'efficienza nell'utilizzo dei dati per l'apprendimento per rinforzo da feedback umano (RLHF). Il nostro algoritmo aggiorna incrementalmente i modelli di ricompensa e linguistico man mano che vengono ricevuti i dati di scelta. Il modello di ricompensa viene adattato ai dati di scelta, mentre il modello linguistico viene aggiornato da una variante di REINFORCE, con segnali di rinforzo forniti dal modello di ricompensa. Diversi elementi consentono i guadagni di efficienza: un piccolo incentivo positivo aggiunto a ogni segnale di rinforzo, una rete neurale epistemica che modella l'incertezza della ricompensa e un'esplorazione guidata dall'informazione. Utilizzando modelli linguistici di grandi dimensioni (LLM) Gemma, il nostro algoritmo eguaglia le prestazioni dell'RLHF offline addestrato su 200.000 etichette utilizzando meno di 20.000 etichette, rappresentando un miglioramento di oltre 10 volte nell'efficienza dei dati. Estrapolando dai nostri risultati, prevediamo che il nostro algoritmo addestrato su 1 milione di etichette possa eguagliare l'RLHF offline addestrato su 1 miliardo di etichette, il che rappresenta un miglioramento di 1.000 volte. A nostra conoscenza, questi sono i primi risultati a dimostrare che miglioramenti così significativi sono possibili.
English
We develop an online learning algorithm that dramatically improves the data efficiency of reinforcement learning from human feedback (RLHF). Our algorithm incrementally updates reward and language models as choice data is received. The reward model is fit to the choice data, while the language model is updated by a variation of reinforce, with reinforcement signals provided by the reward model. Several features enable the efficiency gains: a small affirmative nudge added to each reinforcement signal, an epistemic neural network that models reward uncertainty, and information-directed exploration. With Gemma large language models (LLMs), our algorithm matches the performance of offline RLHF trained on 200K labels using fewer than 20K labels, representing more than a 10x gain in data efficiency. Extrapolating from our results, we expect our algorithm trained on 1M labels to match offline RLHF trained on 1B labels. This represents a 1,000x gain. To our knowledge, these are the first results to demonstrate that such large improvements are possible.