Themis: Entrenamiento de Modelos de Recompensa de Código Multilingües Robustos para una Evaluación Flexible con Múltiples Criterios

Resumen

Los modelos de recompensa (RMs) se han convertido en un componente indispensable del proceso de post-entrenamiento de modelos de lenguaje (LM), permitiendo la alineación de políticas y el escalado durante las pruebas. Sin embargo, la investigación sobre la aplicación de los RMs en la generación de código ha sido relativamente escasa, centrándose el trabajo existente principalmente en la retroalimentación por ejecución. Esta elección restringe el post-entrenamiento a optimizar la corrección funcional sobre código ejecutable autónomo. En este trabajo, examinamos el entrenamiento y evaluación de RMs de código multilingües y multi-criterio. Con este fin, primero compilamos Themis-CodeRewardBench, un benchmark para evaluar RMs de código en cinco dimensiones de preferencia (es decir, criterios) y ocho lenguajes de programación, sobre el cual analizamos más de 50 RMs de código, matemáticas y de propósito general. Al observar la competencia limitada de los RMs actuales más allá de la puntuación por corrección funcional, desarrollamos Themis-CodePreference, la colección de código abierto más grande hasta la fecha de preferencias de código (más de 350k pares de preferencias), y la utilizamos para entrenar Themis-RM, un conjunto de modelos de recompensa de código multilingües para una puntuación multi-criterio flexible, que van en tamaño desde 600M hasta 32B de parámetros. Nuestros experimentos y ablaciones demuestran tendencias positivas de escalado, una fuerte transferencia cross-lingüe cuando se entrena con preferencias diversas, y la importancia del entrenamiento multi-criterio para un modelado fiable de recompensas de código.

English

Reward models (RMs) have become an indispensable fixture of the language model (LM) post-training playbook, enabling policy alignment and test-time scaling. Research on the application of RMs in code generation, however, has been comparatively sparse, with existing work largely focusing on execution feedback. This choice constrains post-training to optimizing functional correctness over self-contained executable code. In this work, we examine the training and evaluation of multilingual, multi-criteria code RMs. To this end, we first compile Themis-CodeRewardBench, a benchmark to evaluate code RMs across five preference dimensions (i.e., criteria) and eight programming languages, on which we profile 50+ code, math, and general-purpose RMs. Observing the limited proficiency of current RMs beyond scoring for functional correctness, we develop Themis-CodePreference, the largest open-source collection of code preferences to date (more than 350k preference pairs), and use it to train Themis-RM, a suite of multilingual code reward models for flexible multi-criteria scoring, ranging in size from 600M to 32B parameters. Our experiments and ablations demonstrate positive scaling trends, strong cross-lingual transfer when training on diverse preferences, and the importance of multi-criteria training for reliable code reward modeling.

Themis: Entrenamiento de Modelos de Recompensa de Código Multilingües Robustos para una Evaluación Flexible con Múltiples Criterios

Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring

Resumen

Support