ChatPaper.aiChatPaper

대규모 효율적 탐색

Efficient Exploration at Scale

March 18, 2026
저자: Seyed Mohammad Asghari, Chris Chute, Vikranth Dwaracherla, Xiuyuan Lu, Mehdi Jafarnia, Victor Minden, Zheng Wen, Benjamin Van Roy
cs.AI

초록

우리는 인간 피드백 강화학습(RLHF)의 데이터 효율성을 획기적으로 향상시키는 온라인 학습 알고리즘을 개발했다. 우리의 알고리즘은 선택 데이터가 수신됨에 따라 보상 모델과 언어 모델을 점진적으로 업데이트한다. 보상 모델은 선택 데이터에 맞춰 적합화되는 반면, 언어 모델은 보상 모델이 제공하는 강화 신호를 활용한 reinforce 변형 알고리즘으로 업데이트된다. 이러한 효율성 향상은 몇 가지 핵심 기능에 기인한다: 각 강화 신호에 추가된 소규모의 적극적 개입, 보상 불확실성을 모델링하는 인식론적 신경망, 그리고 정보 주도 탐색이 그것이다. Gemma 대규모 언어 모델(LLM)을 사용했을 때, 우리의 알고리즘은 20,000개 미만의 레이블로 학습하여 20만 개의 레이블로 학습된 오프라인 RLHF의 성능을 달성했으며, 이는 10배 이상의 데이터 효율성 향상을 의미한다. 우리의 결과를 외삽해 보면, 100만 개의 레이블로 학습된 우리의 알고리즘이 10억 개의 레이블로 학습된 오프라인 RLHF의 성능에 도달할 것으로 예상된다. 이는 1,000배의 효율성 향상을 의미한다. 우리가 아는 한, 이러한 대규모 향상이 가능함을 입증한 최초의 결과이다.
English
We develop an online learning algorithm that dramatically improves the data efficiency of reinforcement learning from human feedback (RLHF). Our algorithm incrementally updates reward and language models as choice data is received. The reward model is fit to the choice data, while the language model is updated by a variation of reinforce, with reinforcement signals provided by the reward model. Several features enable the efficiency gains: a small affirmative nudge added to each reinforcement signal, an epistemic neural network that models reward uncertainty, and information-directed exploration. With Gemma large language models (LLMs), our algorithm matches the performance of offline RLHF trained on 200K labels using fewer than 20K labels, representing more than a 10x gain in data efficiency. Extrapolating from our results, we expect our algorithm trained on 1M labels to match offline RLHF trained on 1B labels. This represents a 1,000x gain. To our knowledge, these are the first results to demonstrate that such large improvements are possible.
PDF91March 20, 2026