Themis: Het Trainen van Robuuste Meertalige Codebeloningsmodellen voor Flexibele Multi-Criteria Beoordeling

Samenvatting

Beloningsmodellen (RMs) zijn een onmisbaar onderdeel geworden van de gereedschapskist voor het na-trainen van taalmmodellen (LMs), omdat ze beleidsafstemming en schaling tijdens het testen mogelijk maken. Onderzoek naar de toepassing van RMs bij codegeneratie is echter relatief schaars, waarbij bestaand werk zich grotendeels richt op feedback via uitvoering. Deze keuze beperkt het na-trainen tot het optimaliseren van functionele correctheid voor zelfstandige uitvoerbare code. In dit werk onderzoeken we de training en evaluatie van meertalige, multi-criteria code-RMs. Hiertoe stellen we eerst **Themis-CodeRewardBench** samen, een benchmark om code-RMs te evalueren op vijf voorkeursdimensies (d.w.z. criteria) en acht programmeertalen, waarop we meer dan 50 code-, wiskunde- en algemene RMs profileren. Gezien de beperkte vaardigheid van huidige RMs verder dan het scoren op functionele correctheid, ontwikkelen we **Themis-CodePreference**, de grootste open-source verzameling codevoorkeuren tot nu toe (meer dan 350k voorkeursparen), en gebruiken we deze om **Themis-RM** te trainen, een reeks meertalige code-beloningsmodellen voor flexibele multi-criteria scoring, in grootte variërend van 600M tot 32B parameters. Onze experimenten en ablatiestudies tonen positieve schaalbaarheidstrends, sterke cross-linguale transfer bij training op diverse voorkeuren, en het belang van multi-criteria training voor betrouwbare code-beloningsmodellering aan.

English

Reward models (RMs) have become an indispensable fixture of the language model (LM) post-training playbook, enabling policy alignment and test-time scaling. Research on the application of RMs in code generation, however, has been comparatively sparse, with existing work largely focusing on execution feedback. This choice constrains post-training to optimizing functional correctness over self-contained executable code. In this work, we examine the training and evaluation of multilingual, multi-criteria code RMs. To this end, we first compile Themis-CodeRewardBench, a benchmark to evaluate code RMs across five preference dimensions (i.e., criteria) and eight programming languages, on which we profile 50+ code, math, and general-purpose RMs. Observing the limited proficiency of current RMs beyond scoring for functional correctness, we develop Themis-CodePreference, the largest open-source collection of code preferences to date (more than 350k preference pairs), and use it to train Themis-RM, a suite of multilingual code reward models for flexible multi-criteria scoring, ranging in size from 600M to 32B parameters. Our experiments and ablations demonstrate positive scaling trends, strong cross-lingual transfer when training on diverse preferences, and the importance of multi-criteria training for reliable code reward modeling.

Themis: Het Trainen van Robuuste Meertalige Codebeloningsmodellen voor Flexibele Multi-Criteria Beoordeling

Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring

Samenvatting

Support