ChatPaper.aiChatPaper

N 세계의 최고: max@k 최적화를 통한 강화 학습과 Best-of-N 샘플링의 정렬

The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

October 27, 2025
저자: Farid Bagirov, Mikhail Arkhipov, Ksenia Sycheva, Evgeniy Glukhov, Egor Bogomolov
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(RLVR)의 수학 및 코딩 영역 적용은 대규모 언어 모델의 추론 및 문제 해결 능력에서 상당한 향상을 입증해왔습니다. 단일 생성 문제 해결에서는 성공적이었지만, 강화 학습 미세 조정 과정은 모델의 탐색 능력을 저해할 수 있으며, 이는 생성 결과의 다양성 감소와 대규모 N 값에 대한 Best-of-N 샘플링 성능 저하로 나타납니다. 본 연구에서는 pass@k의 연속적 일반화인 max@k 지표 최적화에 중점을 둡니다. 해당 지표의 직접 최적화를 위한 편향되지 않은 온-정책 경사 추정치를 유도합니다. 나아가, 향상된 샘플 효율성을 가능하게 하는 현대 RLVR 알고리즘의 공통 요소인 오프-정책 업데이트로 유도 결과를 확장합니다. 실험적으로 우리의 목적 함수가 오프-정책 시나리오에서 max@k 지표를 효과적으로 최적화하여 모델을 Best-of-N 추론 전략과 일치시키는 것을 보여줍니다.
English
The application of Reinforcement Learning with Verifiable Rewards (RLVR) to mathematical and coding domains has demonstrated significant improvements in the reasoning and problem-solving abilities of Large Language Models. Despite its success in single generation problem solving, the reinforcement learning fine-tuning process may harm the model's exploration ability, as reflected in decreased diversity of generations and a resulting degradation of performance during Best-of-N sampling for large N values. In this work, we focus on optimizing the max@k metric, a continuous generalization of pass@k. We derive an unbiased on-policy gradient estimate for direct optimization of this metric. Furthermore, we extend our derivations to the off-policy updates, a common element in modern RLVR algorithms, that allows better sample efficiency. Empirically, we show that our objective effectively optimizes max@k metric in off-policy scenarios, aligning the model with the Best-of-N inference strategy.
PDF201December 31, 2025