Themis: 多基準を柔軟に採点するための堅牢な多言語コード報酬モデルのトレーニング
Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring
May 1, 2026
著者: Indraneil Paul, Glavaš Glavas, Iryna Gurevych
cs.AI
要旨
報酬モデル(RMs)は、言語モデル(LM)の学習後調整における不可欠な要素となり、方策の整合性確保とテスト時スケーリングを可能にしている。しかし、コード生成におけるRMsの応用研究は比較的少なく、既存研究は主に実行フィードバックに焦点を当ててきた。この選択肢は、学習後調整を自己完結した実行可能コードの機能的正確性の最適化に限定している。本研究では、多言語・多基準コードRMsの学習と評価を検討する。この目的のために、まず**Themis-CodeRewardBench**を構築した。これは5つの選好次元(基準)と8つのプログラミング言語にわたってコードRMsを評価するベンチマークであり、50以上のコード、数学、汎用RMsのプロファイリングを行った。現在のRMsが機能的正確性の評価を超えた能力に限界があることを確認し、**Themis-CodePreference**(これまでで最大のオープンソースコード選好データセット、35万以上の選好ペア)を開発し、それを用いて**Themis-RM**を学習した。これは600Mから32Bパラメータまでのサイズ範囲を持つ、柔軟な多基準評価のための多言語コード報酬モデル群である。我々の実験と ablation study は、良好なスケーリング傾向、多様な選好による学習時の強力な言語間転移、そして信頼性の高いコード報酬モデリングにおける多基準学習の重要性を実証している。
English
Reward models (RMs) have become an indispensable fixture of the language model (LM) post-training playbook, enabling policy alignment and test-time scaling. Research on the application of RMs in code generation, however, has been comparatively sparse, with existing work largely focusing on execution feedback. This choice constrains post-training to optimizing functional correctness over self-contained executable code. In this work, we examine the training and evaluation of multilingual, multi-criteria code RMs. To this end, we first compile Themis-CodeRewardBench, a benchmark to evaluate code RMs across five preference dimensions (i.e., criteria) and eight programming languages, on which we profile 50+ code, math, and general-purpose RMs. Observing the limited proficiency of current RMs beyond scoring for functional correctness, we develop Themis-CodePreference, the largest open-source collection of code preferences to date (more than 350k preference pairs), and use it to train Themis-RM, a suite of multilingual code reward models for flexible multi-criteria scoring, ranging in size from 600M to 32B parameters. Our experiments and ablations demonstrate positive scaling trends, strong cross-lingual transfer when training on diverse preferences, and the importance of multi-criteria training for reliable code reward modeling.