Esplorazione Efficiente per i Modelli Linguistici di Grande Dimensione

Abstract

Presentiamo evidenze di un sostanziale beneficio derivante dall'esplorazione efficiente nel raccogliere feedback umani per migliorare i modelli linguistici di grandi dimensioni. Nei nostri esperimenti, un agente genera sequenzialmente query mentre adatta un modello di ricompensa ai feedback ricevuti. Il nostro agente con le migliori prestazioni genera query utilizzando il doppio campionamento di Thompson, con l'incertezza rappresentata da una rete neurale epistemica. I nostri risultati dimostrano che l'esplorazione efficiente consente livelli elevati di prestazioni con un numero significativamente inferiore di query. Inoltre, sia la stima dell'incertezza che la scelta dello schema di esplorazione svolgono ruoli critici.

English

We present evidence of substantial benefit from efficient exploration in gathering human feedback to improve large language models. In our experiments, an agent sequentially generates queries while fitting a reward model to the feedback received. Our best-performing agent generates queries using double Thompson sampling, with uncertainty represented by an epistemic neural network. Our results demonstrate that efficient exploration enables high levels of performance with far fewer queries. Further, both uncertainty estimation and the choice of exploration scheme play critical roles.

Esplorazione Efficiente per i Modelli Linguistici di Grande Dimensione

Efficient Exploration for LLMs

Abstract

Support