ChatPaper.aiChatPaper

Exploração Eficiente para Modelos de Linguagem de Grande Escala

Efficient Exploration for LLMs

February 1, 2024
Autores: Vikranth Dwaracherla, Seyed Mohammad Asghari, Botao Hao, Benjamin Van Roy
cs.AI

Resumo

Apresentamos evidências de benefícios substanciais da exploração eficiente na coleta de feedback humano para melhorar modelos de linguagem de grande escala. Em nossos experimentos, um agente gera consultas sequencialmente enquanto ajusta um modelo de recompensa ao feedback recebido. Nosso agente de melhor desempenho gera consultas usando amostragem dupla de Thompson, com a incerteza representada por uma rede neural epistêmica. Nossos resultados demonstram que a exploração eficiente permite altos níveis de desempenho com muito menos consultas. Além disso, tanto a estimativa de incerteza quanto a escolha do esquema de exploração desempenham papéis críticos.
English
We present evidence of substantial benefit from efficient exploration in gathering human feedback to improve large language models. In our experiments, an agent sequentially generates queries while fitting a reward model to the feedback received. Our best-performing agent generates queries using double Thompson sampling, with uncertainty represented by an epistemic neural network. Our results demonstrate that efficient exploration enables high levels of performance with far fewer queries. Further, both uncertainty estimation and the choice of exploration scheme play critical roles.
PDF221December 15, 2024