Misleiden codeagenten ons? Detecteren en voorkomen van bedrog via begrensde evaluatie met gerandomiseerde tests.

Samenvatting

Een groeiende faalwijze bij de evaluatie en training van agenten is dat modellen hoge evaluatiescores kunnen behalen door gebruik te maken van kortsluitingen in plaats van de beoogde taak op te lossen, wat leidt tot misleidende prestaties. Dit maakt evaluatiescores onbetrouwbaar als maatstaf voor het werkelijke probleemoplossend vermogen. Wij stellen CapCode voor, een raamwerk voor het construeren van codeerdatasets met gerandomiseerde tests waarvan de best haalbare niet-frauduleuze prestatie opzettelijk onder de één wordt ingesteld. Dit ontwerp met een prestatieplafond geeft evaluatiescores een duidelijkere interpretatie: scores die aanzienlijk boven het plafond liggen, zijn onwaarschijnlijk en leveren daarmee bewijs van fraude. Om fraude te voorkomen, stellen wij CapReward voor, een beloningsontwerp gebaseerd op het CapCode-principe, dat optimalisatie boven het plafond ontmoedigt. Experimenten met meerdere datasets tonen aan dat CapCode fraude detecteert terwijl de prestatievolgorde van modellen behouden blijft, en dat CapReward frauduleus gedrag vermindert, wat resulteert in modellen die de beoogde taakspecificatie beter volgen.

English

A growing failure mode in agent evaluation and training is that models can achieve high evaluation scores by exploiting shortcuts instead of solving the intended task, producing deceptive performance. This makes evaluation scores unreliable as measures of true task-solving ability. We propose CapCode, a framework for constructing coding datasets with randomized tests whose best achievable non-cheating performance is deliberately capped below one. This capped-performance design gives evaluation scores a clearer interpretation: scores substantially above the cap are implausible and therefore provide evidence of cheating. To prevent cheating, we propose CapReward, a reward design based on the CapCode principle to discourage optimization beyond the cap. Experiments across multiple datasets show that CapCode detects cheating while preserving performance ranking of models, and CapReward reduces cheating behavior, yielding models that better follow the intended task specification.