Themis : Entraînement de modèles de récompense de code multilingues robustes pour une évaluation flexible multicritère

Résumé

Les modèles de récompense (RM) sont devenus un élément indispensable de la boîte à outils post-entraînement des modèles de langage (LM), permettant l'alignement des politiques et la mise à l'échelle au moment des tests. Cependant, la recherche sur l'application des RM à la génération de code est relativement peu développée, les travaux existants se concentrant largement sur les retours d'exécution. Ce choix restreint le post-entraînement à l'optimisation de l'exactitude fonctionnelle pour du code exécutable autonome. Dans ce travail, nous examinons l'entraînement et l'évaluation de RM de code multilingues et multi-critères. Pour ce faire, nous compilons d'abord Themis-CodeRewardBench, un benchmark pour évaluer les RM de code sur cinq dimensions de préférence (c'est-à-dire des critères) et huit langages de programmation, sur lequel nous profilons plus de 50 RM spécialisés dans le code, les mathématiques ou à usage général. Constatant la compétence limitée des RM actuels au-delà de l'évaluation de l'exactitude fonctionnelle, nous développons Themis-CodePreference, la plus grande collection open-source de préférences de code à ce jour (plus de 350 000 paires de préférences), et l'utilisons pour entraîner Themis-RM, une suite de modèles de récompense de code multilingues permettant une notation multi-critères flexible, dont la taille varie de 600 millions à 32 milliards de paramètres. Nos expériences et ablations démontrent des tendances positives de mise à l'échelle, un fort transfert translinguistique lors de l'entraînement sur des préférences diversifiées, et l'importance de l'entraînement multi-critères pour une modélisation fiable des récompenses dans le domaine du code.

English

Reward models (RMs) have become an indispensable fixture of the language model (LM) post-training playbook, enabling policy alignment and test-time scaling. Research on the application of RMs in code generation, however, has been comparatively sparse, with existing work largely focusing on execution feedback. This choice constrains post-training to optimizing functional correctness over self-contained executable code. In this work, we examine the training and evaluation of multilingual, multi-criteria code RMs. To this end, we first compile Themis-CodeRewardBench, a benchmark to evaluate code RMs across five preference dimensions (i.e., criteria) and eight programming languages, on which we profile 50+ code, math, and general-purpose RMs. Observing the limited proficiency of current RMs beyond scoring for functional correctness, we develop Themis-CodePreference, the largest open-source collection of code preferences to date (more than 350k preference pairs), and use it to train Themis-RM, a suite of multilingual code reward models for flexible multi-criteria scoring, ranging in size from 600M to 32B parameters. Our experiments and ablations demonstrate positive scaling trends, strong cross-lingual transfer when training on diverse preferences, and the importance of multi-criteria training for reliable code reward modeling.

Themis : Entraînement de modèles de récompense de code multilingues robustes pour une évaluation flexible multicritère

Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring

Résumé

Support