Effiziente Erkundung im großen Maßstab

Zusammenfassung

Wir entwickeln einen Online-Lernalgorithmus, der die Dateneffizienz von Reinforcement Learning from Human Feedback (RLHF) erheblich verbessert. Unser Algorithmus aktualisiert schrittweise Belohnungs- und Sprachmodelle, sobald Auswahldaten eingehen. Das Belohnungsmodell wird an die Auswahldaten angepasst, während das Sprachmodell durch eine Variante von REINFORCE aktualisiert wird, wobei die Verstärkungssignale vom Belohnungsmodell bereitgestellt werden. Mehrere Merkmale ermöglichen die Effizienzsteigerungen: ein kleiner positiver Impuls, der jedem Verstärkungssignal hinzugefügt wird, ein epistemisches neuronales Netzwerk, das die Belohnungsunsicherheit modelliert, sowie informationsgesteuerte Exploration. Mit Gemma Large Language Models (LLMs) erreicht unser Algorithmus die Leistung von offline RLHF, das mit 200.000 Labels trainiert wurde, unter Verwendung von weniger als 20.000 Labels – was einer mehr als 10-fachen Steigerung der Dateneffizienz entspricht. Extrapoliert aus unseren Ergebnissen erwarten wir, dass unser mit 1 Million Labels trainierter Algorithmus die Leistung von offline RLHF mit 1 Milliarde Labels erreicht. Dies entspricht einer 1.000-fachen Steigerung. Nach unserem Wissen sind dies die ersten Ergebnisse, die demonstrieren, dass derart große Verbesserungen möglich sind.

English

We develop an online learning algorithm that dramatically improves the data efficiency of reinforcement learning from human feedback (RLHF). Our algorithm incrementally updates reward and language models as choice data is received. The reward model is fit to the choice data, while the language model is updated by a variation of reinforce, with reinforcement signals provided by the reward model. Several features enable the efficiency gains: a small affirmative nudge added to each reinforcement signal, an epistemic neural network that models reward uncertainty, and information-directed exploration. With Gemma large language models (LLMs), our algorithm matches the performance of offline RLHF trained on 200K labels using fewer than 20K labels, representing more than a 10x gain in data efficiency. Extrapolating from our results, we expect our algorithm trained on 1M labels to match offline RLHF trained on 1B labels. This represents a 1,000x gain. To our knowledge, these are the first results to demonstrate that such large improvements are possible.

Effiziente Erkundung im großen Maßstab

Efficient Exploration at Scale

Zusammenfassung

Support