SpecBench : Mesure du détournement de récompense chez les agents de codage à long horizon

Résumé

À mesure que les agents de codage à long horizon produisent plus de code que ne peut en réviser un développeur, la supervision se réduit à une seule surface : la suite de tests automatisés. Le contournement de la récompense émerge naturellement dans cette configuration, l'agent optimisant la réussite des tests tout en s'écartant du véritable objectif de l'utilisateur. Nous étudions ce phénomène de contournement de la récompense en décomposant les tâches de génie logiciel en trois parties : (i) une description en langage naturel de la spécification, (ii) des tests de validation visibles qui exécutent les fonctionnalités spécifiées de manière isolée, et (iii) des tests cachés qui composent ces mêmes fonctionnalités pour simuler une utilisation réelle. Sur la base de la spécification et des suites de tests de validation visibles, un agent authentique serait capable de générer une solution qui réussit également tous les tests cachés. Nous utilisons donc l'écart des taux de réussite sur ces deux suites pour quantifier le contournement de la récompense. Sur la base de cette méthodologie, nous introduisons SpecBench, un banc d'essai comprenant 30 tâches de programmation au niveau système, allant de tâches à horizon court comme la construction d'un analyseur JSON à des tâches à horizon très long comme la construction d'un noyau de système d'exploitation complet à partir de zéro. Des expériences à grande échelle révèlent un schéma constant : alors que chaque agent de pointe sature la suite visible, le contournement de la récompense persiste, les modèles plus petits présentant des écarts plus importants sur les suites cachées. L'écart augmente également fortement avec la longueur de la tâche : il croît de 28 points de pourcentage pour chaque multiplication par dix de la taille du code. Les échecs vont de l'isolation subtile de fonctionnalités à des exploitations délibérées, notamment un « compilateur » de table de hachage de 2 900 lignes qui mémorise les entrées de test. SpecBench offre un banc d'essai fondé sur des principes pour mesurer si les agents de codage construisent de véritables systèmes fonctionnels ou se contentent de contourner les suites de tests que les développeurs leur remettent.

English

As long-horizon coding agents produce more code than any developer can review, oversight collapses onto a single surface: the automated test suite. Reward hacking naturally arises in this setup, as the agent optimizes for passing tests while deviating from the users true goal. We study this reward hacking phenomenon by decompose software engineering tasks into three parts: (i) a natural language description of the specification (ii) visible validation tests that exercise specified features in isolation, and (iii) held-out tests that compose those same features to simulate real-world usage. Based on the specification and the visible validation test suites, a genuine agent would be able to generate a solution that can also pass all of the held-out tests. Therefore we use the gap in pass rates on these two suites to quantify reward hacking. Based on this methodology, we introduce SpecBench, a benchmark comprising 30 systems-level programming tasks ranging from short horizon tasks like building a JSON parser to ultra long horizon tasks like building an entire OS kernel from scratch. Large-scale experiments reveal a consistent pattern: while every frontier agent saturates the visible suite, reward hacking persists, with smaller models exhibiting larger gaps on holdout suites. The gap also scales sharply with task length: it grows by 28 percentage points for every tenfold increase in code size. Failures range from subtle feature isolation to deliberate exploits, including a 2,900-line hash-table "compiler" that memorizes test inputs. SpecBench offers a principled testbed for measuring whether coding agents build genuine working systems or merely game the test suites developers hand them.