ChatPaper.aiChatPaper

Efficiënte exploratie voor LLM's

Efficient Exploration for LLMs

February 1, 2024
Auteurs: Vikranth Dwaracherla, Seyed Mohammad Asghari, Botao Hao, Benjamin Van Roy
cs.AI

Samenvatting

We presenteren bewijs van aanzienlijk voordeel door efficiënte exploratie bij het verzamelen van menselijke feedback om grote taalmodellen te verbeteren. In onze experimenten genereert een agent sequentieel queries terwijl een beloningsmodel wordt aangepast aan de ontvangen feedback. Onze best presterende agent genereert queries met behulp van dubbele Thompson sampling, waarbij onzekerheid wordt gerepresenteerd door een epistemisch neuraal netwerk. Onze resultaten tonen aan dat efficiënte exploratie een hoog prestatieniveau mogelijk maakt met aanzienlijk minder queries. Bovendien spelen zowel onzekerheidsinschatting als de keuze van het exploratieschema cruciale rollen.
English
We present evidence of substantial benefit from efficient exploration in gathering human feedback to improve large language models. In our experiments, an agent sequentially generates queries while fitting a reward model to the feedback received. Our best-performing agent generates queries using double Thompson sampling, with uncertainty represented by an epistemic neural network. Our results demonstrate that efficient exploration enables high levels of performance with far fewer queries. Further, both uncertainty estimation and the choice of exploration scheme play critical roles.
PDF221December 15, 2024