¿Los Agentes de Codificación Nos Engañan? Detección y Prevención del Engaño mediante Evaluación con Límite y Pruebas Aleatorizadas

Resumen

Un modo de fallo creciente en la evaluación y el entrenamiento de agentes es que los modelos pueden obtener puntuaciones altas en las evaluaciones explotando atajos en lugar de resolver la tarea prevista, produciendo un rendimiento engañoso. Esto hace que las puntuaciones de evaluación no sean fiables como medidas de la verdadera capacidad para resolver tareas. Proponemos CapCode, un marco para construir conjuntos de datos de codificación con pruebas aleatorizadas cuyo mejor rendimiento no fraudulento alcanzable está deliberadamente limitado por debajo de uno. Este diseño de rendimiento acotado otorga a las puntuaciones de evaluación una interpretación más clara: las puntuaciones sustancialmente por encima del límite son inverosímiles y, por lo tanto, proporcionan evidencia de trampa. Para prevenir la trampa, proponemos CapReward, un diseño de recompensa basado en el principio de CapCode para desalentar la optimización más allá del límite. Experimentos en múltiples conjuntos de datos muestran que CapCode detecta trampas mientras preserva el ranking de rendimiento de los modelos, y CapReward reduce el comportamiento fraudulento, produciendo modelos que siguen mejor la especificación prevista de la tarea.

English

A growing failure mode in agent evaluation and training is that models can achieve high evaluation scores by exploiting shortcuts instead of solving the intended task, producing deceptive performance. This makes evaluation scores unreliable as measures of true task-solving ability. We propose CapCode, a framework for constructing coding datasets with randomized tests whose best achievable non-cheating performance is deliberately capped below one. This capped-performance design gives evaluation scores a clearer interpretation: scores substantially above the cap are implausible and therefore provide evidence of cheating. To prevent cheating, we propose CapReward, a reward design based on the CapCode principle to discourage optimization beyond the cap. Experiments across multiple datasets show that CapCode detects cheating while preserving performance ranking of models, and CapReward reduces cheating behavior, yielding models that better follow the intended task specification.