Эффективное исследование для крупных языковых моделей

Аннотация

Мы представляем доказательства значительной пользы эффективного исследования при сборе человеческой обратной связи для улучшения больших языковых моделей. В наших экспериментах агент последовательно генерирует запросы, одновременно обучая модель вознаграждения на основе полученной обратной связи. Наиболее эффективный агент генерирует запросы с использованием двойного сэмплирования Томпсона, где неопределенность представлена эпистемической нейронной сетью. Наши результаты показывают, что эффективное исследование позволяет достичь высокого уровня производительности при значительно меньшем количестве запросов. Кроме того, как оценка неопределенности, так и выбор схемы исследования играют ключевые роли.

English

We present evidence of substantial benefit from efficient exploration in gathering human feedback to improve large language models. In our experiments, an agent sequentially generates queries while fitting a reward model to the feedback received. Our best-performing agent generates queries using double Thompson sampling, with uncertainty represented by an epistemic neural network. Our results demonstrate that efficient exploration enables high levels of performance with far fewer queries. Further, both uncertainty estimation and the choice of exploration scheme play critical roles.

Эффективное исследование для крупных языковых моделей

Efficient Exploration for LLMs

Аннотация

Support