Exploration efficace pour les modèles de langage de grande taille
Efficient Exploration for LLMs
February 1, 2024
papers.authors: Vikranth Dwaracherla, Seyed Mohammad Asghari, Botao Hao, Benjamin Van Roy
cs.AI
papers.abstract
Nous présentons des preuves d'un bénéfice substantiel de l'exploration efficace dans la collecte de retours humains pour améliorer les grands modèles de langage. Dans nos expériences, un agent génère séquentiellement des requêtes tout en ajustant un modèle de récompense aux retours reçus. Notre agent le plus performant génère des requêtes en utilisant un échantillonnage double de Thompson, avec l'incertitude représentée par un réseau neuronal épistémique. Nos résultats démontrent que l'exploration efficace permet d'atteindre des niveaux de performance élevés avec beaucoup moins de requêtes. De plus, l'estimation de l'incertitude et le choix du schéma d'exploration jouent des rôles critiques.
English
We present evidence of substantial benefit from efficient exploration in
gathering human feedback to improve large language models. In our experiments,
an agent sequentially generates queries while fitting a reward model to the
feedback received. Our best-performing agent generates queries using double
Thompson sampling, with uncertainty represented by an epistemic neural network.
Our results demonstrate that efficient exploration enables high levels of
performance with far fewer queries. Further, both uncertainty estimation and
the choice of exploration scheme play critical roles.