Exploration efficace pour les modèles de langage de grande taille

papers.abstract

Nous présentons des preuves d'un bénéfice substantiel de l'exploration efficace dans la collecte de retours humains pour améliorer les grands modèles de langage. Dans nos expériences, un agent génère séquentiellement des requêtes tout en ajustant un modèle de récompense aux retours reçus. Notre agent le plus performant génère des requêtes en utilisant un échantillonnage double de Thompson, avec l'incertitude représentée par un réseau neuronal épistémique. Nos résultats démontrent que l'exploration efficace permet d'atteindre des niveaux de performance élevés avec beaucoup moins de requêtes. De plus, l'estimation de l'incertitude et le choix du schéma d'exploration jouent des rôles critiques.

English

We present evidence of substantial benefit from efficient exploration in gathering human feedback to improve large language models. In our experiments, an agent sequentially generates queries while fitting a reward model to the feedback received. Our best-performing agent generates queries using double Thompson sampling, with uncertainty represented by an epistemic neural network. Our results demonstrate that efficient exploration enables high levels of performance with far fewer queries. Further, both uncertainty estimation and the choice of exploration scheme play critical roles.

Exploration efficace pour les modèles de langage de grande taille

Efficient Exploration for LLMs

papers.abstract

Support