ChatPaper.aiChatPaper

Effiziente Exploration für große Sprachmodelle

Efficient Exploration for LLMs

February 1, 2024
Autoren: Vikranth Dwaracherla, Seyed Mohammad Asghari, Botao Hao, Benjamin Van Roy
cs.AI

Zusammenfassung

Wir präsentieren Belege für einen erheblichen Nutzen effizienter Exploration bei der Sammlung menschlicher Rückmeldungen zur Verbesserung großer Sprachmodelle. In unseren Experimenten generiert ein Agent sequenziell Abfragen, während er ein Belohnungsmodell an die erhaltenen Rückmeldungen anpasst. Unser leistungsstärkster Agent generiert Abfragen mittels Double-Thompson-Sampling, wobei Unsicherheit durch ein epistemisches neuronales Netzwerk dargestellt wird. Unsere Ergebnisse zeigen, dass effiziente Exploration ein hohes Leistungsniveau mit deutlich weniger Abfragen ermöglicht. Darüber hinaus spielen sowohl die Schätzung von Unsicherheit als auch die Wahl des Explorationsschemas eine entscheidende Rolle.
English
We present evidence of substantial benefit from efficient exploration in gathering human feedback to improve large language models. In our experiments, an agent sequentially generates queries while fitting a reward model to the feedback received. Our best-performing agent generates queries using double Thompson sampling, with uncertainty represented by an epistemic neural network. Our results demonstrate that efficient exploration enables high levels of performance with far fewer queries. Further, both uncertainty estimation and the choice of exploration scheme play critical roles.
PDF231December 15, 2024