Esplorazione Efficiente per i Modelli Linguistici di Grande Dimensione
Efficient Exploration for LLMs
February 1, 2024
Autori: Vikranth Dwaracherla, Seyed Mohammad Asghari, Botao Hao, Benjamin Van Roy
cs.AI
Abstract
Presentiamo evidenze di un sostanziale beneficio derivante dall'esplorazione efficiente nel raccogliere feedback umani per migliorare i modelli linguistici di grandi dimensioni. Nei nostri esperimenti, un agente genera sequenzialmente query mentre adatta un modello di ricompensa ai feedback ricevuti. Il nostro agente con le migliori prestazioni genera query utilizzando il doppio campionamento di Thompson, con l'incertezza rappresentata da una rete neurale epistemica. I nostri risultati dimostrano che l'esplorazione efficiente consente livelli elevati di prestazioni con un numero significativamente inferiore di query. Inoltre, sia la stima dell'incertezza che la scelta dello schema di esplorazione svolgono ruoli critici.
English
We present evidence of substantial benefit from efficient exploration in
gathering human feedback to improve large language models. In our experiments,
an agent sequentially generates queries while fitting a reward model to the
feedback received. Our best-performing agent generates queries using double
Thompson sampling, with uncertainty represented by an epistemic neural network.
Our results demonstrate that efficient exploration enables high levels of
performance with far fewer queries. Further, both uncertainty estimation and
the choice of exploration scheme play critical roles.