Exploración Eficiente para Modelos de Lenguaje de Gran Escala

Resumen

Presentamos evidencia de un beneficio sustancial de la exploración eficiente en la recopilación de retroalimentación humana para mejorar los modelos de lenguaje a gran escala. En nuestros experimentos, un agente genera consultas de manera secuencial mientras ajusta un modelo de recompensa a la retroalimentación recibida. Nuestro agente de mejor rendimiento genera consultas utilizando el muestreo doble de Thompson, con la incertidumbre representada por una red neuronal epistémica. Nuestros resultados demuestran que la exploración eficiente permite alcanzar altos niveles de rendimiento con muchas menos consultas. Además, tanto la estimación de la incertidumbre como la elección del esquema de exploración desempeñan roles críticos.

English

We present evidence of substantial benefit from efficient exploration in gathering human feedback to improve large language models. In our experiments, an agent sequentially generates queries while fitting a reward model to the feedback received. Our best-performing agent generates queries using double Thompson sampling, with uncertainty represented by an epistemic neural network. Our results demonstrate that efficient exploration enables high levels of performance with far fewer queries. Further, both uncertainty estimation and the choice of exploration scheme play critical roles.

Exploración Eficiente para Modelos de Lenguaje de Gran Escala

Efficient Exploration for LLMs

Resumen

Support