Themis: Training robuster mehrsprachiger Code-Reward-Modelle für flexible Bewertung nach mehreren Kriterien

Zusammenfassung

Belohnungsmodelle (RMs) haben sich zu einem unverzichtbaren Bestandteil des Post-Training-Repertoires für Sprachmodelle (LMs) entwickelt, da sie Policy-Alignment und Skalierung zur Laufzeit ermöglichen. Die Forschung zur Anwendung von RMs in der Code-Generierung war hingegen vergleichsweise spärlich, wobei sich bestehende Arbeiten weitgehend auf Ausführungsfeedback konzentrierten. Dieser Ansatz beschränkt das Post-Training darauf, funktionale Korrektheit von in sich geschlossenem, ausführbarem Code zu optimieren. In dieser Arbeit untersuchen wir das Training und die Evaluation von mehrsprachigen, multi-kriteriellen Code-RMs. Zu diesem Zweck stellen wir zunächst *Themis-CodeRewardBench* zusammen, einen Benchmark zur Bewertung von Code-RMs über fünf Präferenzdimensionen (d.h. Kriterien) und acht Programmiersprachen hinweg, mit dem wir mehr als 50 Code-, Mathematik- und General-Purpose-RMs profilieren. Da wir feststellen, dass die Fähigkeiten aktueller RMs über die Bewertung funktionaler Korrektheit hinaus begrenzt sind, entwickeln wir *Themis-CodePreference*, die bislang größte Open-Source-Sammlung von Code-Präferenzen (mehr als 350k Präferenzpaare), und nutzen diese, um *Themis-RM* zu trainieren – eine Suite mehrsprachiger Code-Belohnungsmodelle für flexibles multi-kriterielles Scoring, deren Größe von 600M bis zu 32B Parametern reicht. Unsere Experimente und Ablationstudien demonstrieren positive Skalierungstrends, starken cross-lingualen Transfer beim Training mit diversen Präferenzen und die Bedeutung von multi-kriteriellem Training für zuverlässige Code-Belohnungsmodellierung.

English

Reward models (RMs) have become an indispensable fixture of the language model (LM) post-training playbook, enabling policy alignment and test-time scaling. Research on the application of RMs in code generation, however, has been comparatively sparse, with existing work largely focusing on execution feedback. This choice constrains post-training to optimizing functional correctness over self-contained executable code. In this work, we examine the training and evaluation of multilingual, multi-criteria code RMs. To this end, we first compile Themis-CodeRewardBench, a benchmark to evaluate code RMs across five preference dimensions (i.e., criteria) and eight programming languages, on which we profile 50+ code, math, and general-purpose RMs. Observing the limited proficiency of current RMs beyond scoring for functional correctness, we develop Themis-CodePreference, the largest open-source collection of code preferences to date (more than 350k preference pairs), and use it to train Themis-RM, a suite of multilingual code reward models for flexible multi-criteria scoring, ranging in size from 600M to 32B parameters. Our experiments and ablations demonstrate positive scaling trends, strong cross-lingual transfer when training on diverse preferences, and the importance of multi-criteria training for reliable code reward modeling.

Themis: Training robuster mehrsprachiger Code-Reward-Modelle für flexible Bewertung nach mehreren Kriterien

Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring

Zusammenfassung

Support