일반 LLM 추론을 위한 가능도 기반 보상 설계
Likelihood-Based Reward Designs for General LLM Reasoning
February 3, 2026
저자: Ariel Kwiatkowski, Natasha Butt, Ismail Labiad, Julia Kempe, Yann Ollivier
cs.AI
초록
대규모 언어 모델(LLM)을 추론 벤치마크에 대해 강화 학습으로 미세 조정할 때는 각 벤치마크마다 주로 이진 형태의 특정 보상 함수가 필요합니다. 이에는 두 가지 잠재적 한계가 따릅니다: 보상 함수 설계의 필요성과 이진 보상의 희소성 가능성입니다. 본 연구에서는 참조 답변(또는 데이터에 존재하는 다른 프롬프트 연속)을 생성할 확률 또는 로그 확률에서 도출된 보상 함수를 체계적으로 연구합니다. 이러한 보상은 특정 검증기에 의존하지 않으며 대규모로 활용 가능하다는 장점이 있습니다. 여러 최근 연구(예: VeriFree, JEPO, RLPR, NOVER)에서 유사한 보상 사용을 제안했습니다. 우리는 가능도 기반 보상의 변형들을 표준 기준 모델과 체계적으로 비교하며, 표준 수학적 추론 벤치마크와 외부 검증기가 없는 장문 형식 답변 설정에서 성능을 테스트합니다. 참조 답변의 로그 확률을 사고 연쇄(CoT) 학습의 보상으로 사용하는 것이 모든 설정에서 우수한 성능을 보인 유일한 방법임을 발견했습니다. 이 보상은 사전 학습 시 사용된 다음 토큰 로그 가능도 손실과도 일관성이 있습니다. 검증 가능한 설정에서는 로그 확률 보상이 표준 이진 보상을 사용한 강화 학습과 비교하여 동등하거나 더 높은 성공률을 보였으며, 훨씬 더 나은 퍼플렉서티를 달성했습니다. 검증이 불가능한 설정에서는 SFT(지도 미세 조정)와 유사한 성능을 보였습니다. 반면, VeriFree와 같은 확률 기반 방법들은 정답을 얻을 확률이 소실되어 검증 불가능한 설정에서 성능이 정체되었습니다. 전반적으로, 이 연구는 로그 확률 보상이 CoT 미세 조정을 위한 실용적인 방법으로, 짧은 검증 가능 답변과 긴 검증 불가능 답변 설정을 연결하는 역할을 함을 입증합니다.
English
Fine-tuning large language models (LLMs) on reasoning benchmarks via reinforcement learning requires a specific reward function, often binary, for each benchmark. This comes with two potential limitations: the need to design the reward, and the potentially sparse nature of binary rewards. Here, we systematically investigate rewards derived from the probability or log-probability of emitting the reference answer (or any other prompt continuation present in the data), which have the advantage of not relying on specific verifiers and being available at scale. Several recent works have advocated for the use of similar rewards (e.g., VeriFree, JEPO, RLPR, NOVER). We systematically compare variants of likelihood-based rewards with standard baselines, testing performance both on standard mathematical reasoning benchmarks, and on long-form answers where no external verifier is available. We find that using the log-probability of the reference answer as the reward for chain-of-thought (CoT) learning is the only option that performs well in all setups. This reward is also consistent with the next-token log-likelihood loss used during pretraining. In verifiable settings, log-probability rewards bring comparable or better success rates than reinforcing with standard binary rewards, and yield much better perplexity. In non-verifiable settings, they perform on par with SFT. On the other hand, methods based on probability, such as VeriFree, flatline on non-verifiable settings due to vanishing probabilities of getting the correct answer. Overall, this establishes log-probability rewards as a viable method for CoT fine-tuning, bridging the short, verifiable and long, non-verifiable answer settings.