Exploración Eficiente a Gran Escala

Resumen

Desarrollamos un algoritmo de aprendizaje en línea que mejora drásticamente la eficiencia de datos del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Nuestro algoritmo actualiza incrementalmente los modelos de recompensa y lenguaje a medida que se reciben datos de elección. El modelo de recompensa se ajusta a los datos de elección, mientras que el modelo de lenguaje se actualiza mediante una variación de "reinforce", con señales de refuerzo proporcionadas por el modelo de recompensa. Varias características permiten las ganancias de eficiencia: un pequeño empujón afirmativo añadido a cada señal de refuerzo, una red neuronal epistémica que modela la incertidumbre de la recompensa y una exploración dirigida por información. Utilizando modelos de lenguaje grande (LLM) Gemma, nuestro algoritmo iguala el rendimiento del RLHF fuera de línea entrenado con 200.000 etiquetas utilizando menos de 20.000 etiquetas, lo que representa una ganancia de más de 10 veces en eficiencia de datos. Extrapolando nuestros resultados, esperamos que nuestro algoritmo entrenado con 1 millón de etiquetas iguale al RLHF fuera de línea entrenado con 1.000 millones de etiquetas. Esto representa una ganancia de 1.000 veces. Hasta donde sabemos, estos son los primeros resultados que demuestran que mejoras tan grandes son posibles.

English

We develop an online learning algorithm that dramatically improves the data efficiency of reinforcement learning from human feedback (RLHF). Our algorithm incrementally updates reward and language models as choice data is received. The reward model is fit to the choice data, while the language model is updated by a variation of reinforce, with reinforcement signals provided by the reward model. Several features enable the efficiency gains: a small affirmative nudge added to each reinforcement signal, an epistemic neural network that models reward uncertainty, and information-directed exploration. With Gemma large language models (LLMs), our algorithm matches the performance of offline RLHF trained on 200K labels using fewer than 20K labels, representing more than a 10x gain in data efficiency. Extrapolating from our results, we expect our algorithm trained on 1M labels to match offline RLHF trained on 1B labels. This represents a 1,000x gain. To our knowledge, these are the first results to demonstrate that such large improvements are possible.

Exploración Eficiente a Gran Escala

Efficient Exploration at Scale

Resumen

Support