Les agents de codage nous trompent-ils ? Détecter et prévenir la tricherie via une évaluation plafonnée avec tests randomisés

Résumé

Un mode de défaillance croissant dans l'évaluation et l'entraînement des agents est que les modèles peuvent obtenir des scores d'évaluation élevés en exploitant des raccourcis plutôt qu'en résolvant la tâche prévue, produisant ainsi une performance trompeuse. Cela rend les scores d'évaluation peu fiables en tant que mesures de la véritable capacité à résoudre les tâches. Nous proposons CapCode, un cadre pour construire des ensembles de données de codage avec des tests randomisés dont la meilleure performance sans tricherie réalisable est délibérément plafonnée en dessous de un. Cette conception à performance plafonnée donne une interprétation plus claire aux scores d'évaluation : des scores nettement supérieurs au plafond sont invraisemblables et fournissent donc une preuve de tricherie. Pour prévenir la tricherie, nous proposons CapReward, une conception de récompense basée sur le principe CapCode afin de décourager l'optimisation au-delà du plafond. Des expériences menées sur plusieurs ensembles de données montrent que CapCode détecte la tricherie tout en préservant le classement des performances des modèles, et que CapReward réduit les comportements de tricherie, produisant des modèles qui suivent mieux la spécification de tâche prévue.

English

A growing failure mode in agent evaluation and training is that models can achieve high evaluation scores by exploiting shortcuts instead of solving the intended task, producing deceptive performance. This makes evaluation scores unreliable as measures of true task-solving ability. We propose CapCode, a framework for constructing coding datasets with randomized tests whose best achievable non-cheating performance is deliberately capped below one. This capped-performance design gives evaluation scores a clearer interpretation: scores substantially above the cap are implausible and therefore provide evidence of cheating. To prevent cheating, we propose CapReward, a reward design based on the CapCode principle to discourage optimization beyond the cap. Experiments across multiple datasets show that CapCode detects cheating while preserving performance ranking of models, and CapReward reduces cheating behavior, yielding models that better follow the intended task specification.