테미스: 강건한 다국어 코드 보상 모델 훈련을 통한 유연한 다중 기준 점수 산정
Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring
May 1, 2026
저자: Indraneil Paul, Glavaš Glavas, Iryna Gurevych
cs.AI
초록
보상 모델(RM)은 언어 모델(LM)의 사후 훈련 과정에서 정책 정렬과 테스트 시간 스케일링을 가능하게 하여 필수적인 요소로 자리 잡았습니다. 그러나 코드 생성 분야에서 RM 적용에 관한 연구는 상대적으로 부족한 실정이며, 기존 연구는 주로 실행 피드백에 집중되어 있습니다. 이러한 접근은 사후 훈련을 독립 실행 가능한 코드의 기능적 정확성 최적화로 제한합니다. 본 연구에서는 다국어, 다기준 코드 RM의 훈련 및 평가를 검토합니다. 이를 위해 먼저 5개의 선호 차원(즉, 기준)과 8개 프로그래밍 언어에 걸쳐 코드 RM을 평가하는 벤치마크인 Themis-CodeRewardBench를 구축하고, 여기에서 50개 이상의 코드, 수학, 범용 RM의 성능을 분석합니다. 기능적 정확성 점수 매기기 이상의 영역에서 현재 RM의 역량이 제한적임을 확인하고, 역대 가장 규모가 큰 오픈소스 코드 선호도 데이터셋(35만 개 이상의 선호도 쌍)인 Themis-CodePreference를 개발합니다. 이를 통해 6억에서 320억 파라미터 규모의 유연한 다기준 점수 매기기가 가능한 다국어 코드 보상 모델 세트인 Themis-RM을 훈련합니다. 우리의 실험 및 엄밀성 검증 결과, 긍정적인 스케일링 경향, 다양한 선호도를 활용한 훈련 시 강력한 교차 언어 전이 효과, 그리고 신뢰할 수 있는 코드 보상 모델링을 위한 다기준 훈련의 중요성을 입증합니다.
English
Reward models (RMs) have become an indispensable fixture of the language model (LM) post-training playbook, enabling policy alignment and test-time scaling. Research on the application of RMs in code generation, however, has been comparatively sparse, with existing work largely focusing on execution feedback. This choice constrains post-training to optimizing functional correctness over self-contained executable code. In this work, we examine the training and evaluation of multilingual, multi-criteria code RMs. To this end, we first compile Themis-CodeRewardBench, a benchmark to evaluate code RMs across five preference dimensions (i.e., criteria) and eight programming languages, on which we profile 50+ code, math, and general-purpose RMs. Observing the limited proficiency of current RMs beyond scoring for functional correctness, we develop Themis-CodePreference, the largest open-source collection of code preferences to date (more than 350k preference pairs), and use it to train Themis-RM, a suite of multilingual code reward models for flexible multi-criteria scoring, ranging in size from 600M to 32B parameters. Our experiments and ablations demonstrate positive scaling trends, strong cross-lingual transfer when training on diverse preferences, and the importance of multi-criteria training for reliable code reward modeling.