Эффективное исследование для крупных языковых моделей
Efficient Exploration for LLMs
February 1, 2024
Авторы: Vikranth Dwaracherla, Seyed Mohammad Asghari, Botao Hao, Benjamin Van Roy
cs.AI
Аннотация
Мы представляем доказательства значительной пользы эффективного исследования при сборе человеческой обратной связи для улучшения больших языковых моделей. В наших экспериментах агент последовательно генерирует запросы, одновременно обучая модель вознаграждения на основе полученной обратной связи. Наиболее эффективный агент генерирует запросы с использованием двойного сэмплирования Томпсона, где неопределенность представлена эпистемической нейронной сетью. Наши результаты показывают, что эффективное исследование позволяет достичь высокого уровня производительности при значительно меньшем количестве запросов. Кроме того, как оценка неопределенности, так и выбор схемы исследования играют ключевые роли.
English
We present evidence of substantial benefit from efficient exploration in
gathering human feedback to improve large language models. In our experiments,
an agent sequentially generates queries while fitting a reward model to the
feedback received. Our best-performing agent generates queries using double
Thompson sampling, with uncertainty represented by an epistemic neural network.
Our results demonstrate that efficient exploration enables high levels of
performance with far fewer queries. Further, both uncertainty estimation and
the choice of exploration scheme play critical roles.