Exploración Eficiente para Modelos de Lenguaje de Gran Escala
Efficient Exploration for LLMs
February 1, 2024
Autores: Vikranth Dwaracherla, Seyed Mohammad Asghari, Botao Hao, Benjamin Van Roy
cs.AI
Resumen
Presentamos evidencia de un beneficio sustancial de la exploración eficiente en la recopilación de retroalimentación humana para mejorar los modelos de lenguaje a gran escala. En nuestros experimentos, un agente genera consultas de manera secuencial mientras ajusta un modelo de recompensa a la retroalimentación recibida. Nuestro agente de mejor rendimiento genera consultas utilizando el muestreo doble de Thompson, con la incertidumbre representada por una red neuronal epistémica. Nuestros resultados demuestran que la exploración eficiente permite alcanzar altos niveles de rendimiento con muchas menos consultas. Además, tanto la estimación de la incertidumbre como la elección del esquema de exploración desempeñan roles críticos.
English
We present evidence of substantial benefit from efficient exploration in
gathering human feedback to improve large language models. In our experiments,
an agent sequentially generates queries while fitting a reward model to the
feedback received. Our best-performing agent generates queries using double
Thompson sampling, with uncertainty represented by an epistemic neural network.
Our results demonstrate that efficient exploration enables high levels of
performance with far fewer queries. Further, both uncertainty estimation and
the choice of exploration scheme play critical roles.