Exploration efficace à grande échelle

Résumé

Nous développons un algorithme d'apprentissage en ligne qui améliore considérablement l'efficacité des données dans l'apprentissage par renforcement à partir de retours humains (RLHF). Notre algorithme met à jour de manière incrémentielle les modèles de récompense et de langage au fur et à mesure de la réception des données de choix. Le modèle de récompense est ajusté aux données de choix, tandis que le modèle de langage est mis à jour par une variante de l'algorithme REINFORCE, avec des signaux de renforcement fournis par le modèle de récompense. Plusieurs caractéristiques permettent ces gains d'efficacité : un petit coup de pouce affirmatif ajouté à chaque signal de renforcement, un réseau neuronal épistémique qui modélise l'incertitude de la récompense, et une exploration dirigée par l'information. Avec les grands modèles de langage (LLM) Gemma, notre algorithme atteint des performances équivalentes à celles du RLHF hors ligne entraîné sur 200 000 étiquettes en utilisant moins de 20 000 étiquettes, ce qui représente un gain d'efficacité des données de plus de 10 fois. En extrapolant nos résultats, nous estimons que notre algorithme entraîné sur 1 million d'étiquettes égalerait les performances du RLHF hors ligne entraîné sur 1 milliard d'étiquettes. Cela représente un gain de 1 000 fois. À notre connaissance, ce sont les premiers résultats à démontrer que de telles améliorations substantielles sont possibles.

English

We develop an online learning algorithm that dramatically improves the data efficiency of reinforcement learning from human feedback (RLHF). Our algorithm incrementally updates reward and language models as choice data is received. The reward model is fit to the choice data, while the language model is updated by a variation of reinforce, with reinforcement signals provided by the reward model. Several features enable the efficiency gains: a small affirmative nudge added to each reinforcement signal, an epistemic neural network that models reward uncertainty, and information-directed exploration. With Gemma large language models (LLMs), our algorithm matches the performance of offline RLHF trained on 200K labels using fewer than 20K labels, representing more than a 10x gain in data efficiency. Extrapolating from our results, we expect our algorithm trained on 1M labels to match offline RLHF trained on 1B labels. This represents a 1,000x gain. To our knowledge, these are the first results to demonstrate that such large improvements are possible.

Exploration efficace à grande échelle

Efficient Exploration at Scale

Résumé

Support