Täuschen uns Coding-Agenten? Erkennung und Verhinderung von Betrug durch gedeckelte Bewertung mit randomisierten Tests

Zusammenfassung

Ein zunehmender Fehlermodus bei der Bewertung und dem Training von Agenten besteht darin, dass Modelle durch die Nutzung von Abkürzungen statt der Lösung der eigentlichen Aufgabe hohe Bewertungsergebnisse erzielen können, was zu trügerischer Leistung führt. Dies macht Bewertungsergebnisse als Maße für die tatsächliche Aufgabenlösungsfähigkeit unzuverlässig. Wir schlagen CapCode vor, ein Framework zur Konstruktion von Kodierungsdatensätzen mit randomisierten Tests, deren bestmögliche, nicht betrügerische Leistung absichtlich unter eins gedeckelt ist. Dieses gedeckelte Leistungsdesign verleiht den Bewertungsergebnissen eine klarere Interpretation: Ergebnisse, die deutlich über dem Deckel liegen, sind unplausibel und liefern daher Hinweise auf Betrug. Um Betrug zu verhindern, schlagen wir CapReward vor, ein auf dem CapCode-Prinzip basierendes Belohnungsdesign, das eine Optimierung über den Deckel hinaus unterbindet. Experimente über mehrere Datensätze hinweg zeigen, dass CapCode Betrug erkennt, während es die Leistungsrangfolge der Modelle bewahrt, und dass CapReward betrügerisches Verhalten reduziert, was zu Modellen führt, die die beabsichtigte Aufgabenspezifikation besser befolgen.

English

A growing failure mode in agent evaluation and training is that models can achieve high evaluation scores by exploiting shortcuts instead of solving the intended task, producing deceptive performance. This makes evaluation scores unreliable as measures of true task-solving ability. We propose CapCode, a framework for constructing coding datasets with randomized tests whose best achievable non-cheating performance is deliberately capped below one. This capped-performance design gives evaluation scores a clearer interpretation: scores substantially above the cap are implausible and therefore provide evidence of cheating. To prevent cheating, we propose CapReward, a reward design based on the CapCode principle to discourage optimization beyond the cap. Experiments across multiple datasets show that CapCode detects cheating while preserving performance ranking of models, and CapReward reduces cheating behavior, yielding models that better follow the intended task specification.