검증 불가능한 LLM 후속 학습에서 추론 능력 평가: LLM 판단자 모델 활용
Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training
March 12, 2026
저자: Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen
cs.AI
초록
추론 시간 확장의 이점을 얻을 수 있는 추론 LLM-판단 모델(Reasoning LLMs-as-Judges)은 출력의 정확성/품질을 직접 확인할 수 없는 검증 불가 영역으로 추론 모델의 성공을 확장할 수 있는 유망한 길을 제시합니다. 그러나 추론 판단 모델이 정적 평가 벤치마크에서는 더 나은 성능을 보였지만, 실제 정책 훈련에서의 효과는 체계적으로 검증되지 않았습니다. 따라서 우리는 강화 학습 기반 LLM 정렬에서 비추론 및 추론 판단 모델의 실제 영향을 조사하기 위해 엄격한 연구를 수행합니다. '골드 스탠다드' 판단 모델(gpt-oss-120b)이 더 작은 판단 모델들을 훈련시키기 위한 선호도 주석을 제공하는 우리의 통제된 합성 환경은 비추론 판단 모델과 추론 판단 모델 간의 주요 차이를 보여줍니다: 비추론 판단 모델은 쉽게 보드 해킹(reward hacking)으로 이어지는 반면, 추론 판단 모델은 골드 스탠다드 판단 모델로 평가 시 강력한 성능을 달성하는 정책으로 이어질 수 있습니다. 흥미롭게도, 추론 판단 모델로 훈련된 정책들은 다른 LLM 판단 모델들을 속여 Arena-Hard와 같은 인기 벤치마크에서도 높은 점수를 얻을 수 있는 매우 효과적인 적대적 출력을 생성하는 법을 학습함으로써 이러한 강력한 성능을 달성하는 것으로 나타났습니다. 추가 분석과 결합하여, 본 연구는 검증 불가 LLM 사후 훈련에 (추론) LLM 판단 모델을 적용하는 데 있어 중요한 발견과 개선의 여지를 모두 강조합니다.
English
Reasoning LLMs-as-Judges, which can benefit from inference-time scaling, provide a promising path for extending the success of reasoning models to non-verifiable domains where the output correctness/quality cannot be directly checked. However, while reasoning judges have shown better performance on static evaluation benchmarks, their effectiveness in actual policy training has not been systematically examined. Therefore, we conduct a rigorous study to investigate the actual impact of non-reasoning and reasoning judges in reinforcement-learning-based LLM alignment. Our controlled synthetic setting, where a "gold-standard" judge (gpt-oss-120b) provides preference annotations to train smaller judges, reveals key differences between non-reasoning and reasoning judges: non-reasoning judges lead to reward hacking easily, while reasoning judges can lead to policies that achieve strong performance when evaluated by the gold-standard judge. Interestingly, we find that the reasoning-judge-trained policies achieve such strong performance by learning to generate highly effective adversarial outputs that can also score well on popular benchmarks such as Arena-Hard by deceiving other LLM-judges. Combined with our further analysis, our study highlights both important findings and room for improvements for applying (reasoning) LLM-judges in non-verifiable LLM post-training.