Exploração Eficiente em Larga Escala
Efficient Exploration at Scale
March 18, 2026
Autores: Seyed Mohammad Asghari, Chris Chute, Vikranth Dwaracherla, Xiuyuan Lu, Mehdi Jafarnia, Victor Minden, Zheng Wen, Benjamin Van Roy
cs.AI
Resumo
Desenvolvemos um algoritmo de aprendizagem online que melhora drasticamente a eficiência de dados do aprendizado por reforço com feedback humano (RLHF). Nosso algoritmo atualiza incrementalmente os modelos de recompensa e linguagem à medida que os dados de escolha são recebidos. O modelo de recompensa é ajustado aos dados de escolha, enquanto o modelo de linguagem é atualizado por uma variação do método REINFORCE, com sinais de reforço fornecidos pelo modelo de recompensa. Várias características permitem os ganhos de eficiência: um pequeno impulso afirmativo adicionado a cada sinal de reforço, uma rede neural epistêmica que modela a incerteza da recompensa e uma exploração direcionada por informação. Com modelos de linguagem grandes (LLMs) Gemma, nosso algoritmo iguala o desempenho do RLHF offline treinado com 200 mil rótulos usando menos de 20 mil rótulos, representando um ganho de eficiência de dados superior a 10 vezes. Extrapolando nossos resultados, esperamos que nosso algoritmo treinado com 1 milhão de rótulos iguale o RLHF offline treinado com 1 bilhão de rótulos. Isso representa um ganho de 1.000 vezes. Até onde sabemos, estes são os primeiros resultados a demonstrar que melhorias tão significativas são possíveis.
English
We develop an online learning algorithm that dramatically improves the data efficiency of reinforcement learning from human feedback (RLHF). Our algorithm incrementally updates reward and language models as choice data is received. The reward model is fit to the choice data, while the language model is updated by a variation of reinforce, with reinforcement signals provided by the reward model. Several features enable the efficiency gains: a small affirmative nudge added to each reinforcement signal, an epistemic neural network that models reward uncertainty, and information-directed exploration. With Gemma large language models (LLMs), our algorithm matches the performance of offline RLHF trained on 200K labels using fewer than 20K labels, representing more than a 10x gain in data efficiency. Extrapolating from our results, we expect our algorithm trained on 1M labels to match offline RLHF trained on 1B labels. This represents a 1,000x gain. To our knowledge, these are the first results to demonstrate that such large improvements are possible.