Efficiënte Verkenning op Grote Schaal
Efficient Exploration at Scale
March 18, 2026
Auteurs: Seyed Mohammad Asghari, Chris Chute, Vikranth Dwaracherla, Xiuyuan Lu, Mehdi Jafarnia, Victor Minden, Zheng Wen, Benjamin Van Roy
cs.AI
Samenvatting
Wij ontwikkelen een online-leeralgoritme dat de data-efficiëntie van reinforcement learning from human feedback (RLHF) aanzienlijk verbetert. Ons algoritme werkt belonings- en taalmodelle incrementeel bij na ontvangst van keuzedata. Het beloningsmodel wordt op de keuzedata afgestemd, terwijl het taalmodel wordt bijgewerkt via een variant van REINFORCE, waarbij versterkingssignalen door het beloningsmodel worden geleverd. Verscheidene kenmerken maken de efficiëntiewinst mogelijk: een kleine positieve prikkel die aan elk versterkingssignaal wordt toegevoegd, een epistemisch neuraal netwerk dat de onzekerheid van de beloning modelleert, en informatie-gestuurd exploreren. Met Gemma large language models (LLM's) evenaart ons algoritme de prestaties van offline RLHF, getraind op 200.000 labels, met minder dan 20.000 labels, wat een meer dan 10-voudige winst in data-efficiëntie vertegenwoordigt. Extrapolerend uit onze resultaten verwachten wij dat ons algoritme, getraind op 1 miljoen labels, evenaart wat offline RLHF bereikt met 1 miljard labels. Dit vertegenwoordigt een 1.000-voudige winst. Voor zover ons bekend zijn dit de eerste resultaten die aantonen dat zulke grote verbeteringen mogelijk zijn.
English
We develop an online learning algorithm that dramatically improves the data efficiency of reinforcement learning from human feedback (RLHF). Our algorithm incrementally updates reward and language models as choice data is received. The reward model is fit to the choice data, while the language model is updated by a variation of reinforce, with reinforcement signals provided by the reward model. Several features enable the efficiency gains: a small affirmative nudge added to each reinforcement signal, an epistemic neural network that models reward uncertainty, and information-directed exploration. With Gemma large language models (LLMs), our algorithm matches the performance of offline RLHF trained on 200K labels using fewer than 20K labels, representing more than a 10x gain in data efficiency. Extrapolating from our results, we expect our algorithm trained on 1M labels to match offline RLHF trained on 1B labels. This represents a 1,000x gain. To our knowledge, these are the first results to demonstrate that such large improvements are possible.