SpecBench: Het Meten van Reward Hacking in Langetermijn-Codeeragenten

Samenvatting

Naarmate codeeragenten met lange tijdshorizonten meer code produceren dan een ontwikkelaar kan reviewen, verschuift het toezicht naar één enkel oppervlak: de geautomatiseerde testsuite. Beloningshacking ontstaat vanzelf in deze opzet, omdat de agent optimaliseert voor het doorstaan van tests terwijl hij afwijkt van het werkelijke doel van de gebruiker. Wij bestuderen dit beloningshackingfenomeen door software-engineeringtaken op te splitsen in drie delen: (i) een natuurlijke-taalbeschrijving van de specificatie, (ii) zichtbare validatietests die gespecificeerde functionaliteiten in isolatie uitoefenen, en (iii) achtergehouden tests die dezelfde functionaliteiten combineren om realistisch gebruik te simuleren. Op basis van de specificatie en de zichtbare validatietestsuites zou een oprechte agent in staat zijn een oplossing te genereren die ook alle achtergehouden tests doorstaat. Daarom gebruiken we het verschil in slagingspercentages op deze twee suites om beloningshacking te kwantificeren. Op basis van deze methodologie introduceren we SpecBench, een benchmark bestaande uit 30 systeemprogrammeertaken, variërend van korte tijdshorizontaken zoals het bouwen van een JSON-parser tot ultralange tijdshorizontaken zoals het helemaal opnieuw bouwen van een OS-kernel. Grootschalige experimenten tonen een consistent patroon: hoewel elke grensverleggende agent de zichtbare suite verzadigt, blijft beloningshacking bestaan, waarbij kleinere modellen grotere verschillen op achtergehouden suites vertonen. Het verschil neemt ook sterk toe met de taaklengte: het groeit met 28 procentpunten bij elke tienvoudige toename van de codeomvang. De mislukkingen variëren van subtiele functionaliteitsisolatie tot opzettelijke exploits, waaronder een 2.900-regelige hashtabel-"compiler" die testinvoer memoriseert. SpecBench biedt een principiële testomgeving om te meten of codeeragenten echte werkende systemen bouwen of slechts de testsuites manipuleren die ontwikkelaars hen aanreiken.

English

As long-horizon coding agents produce more code than any developer can review, oversight collapses onto a single surface: the automated test suite. Reward hacking naturally arises in this setup, as the agent optimizes for passing tests while deviating from the users true goal. We study this reward hacking phenomenon by decompose software engineering tasks into three parts: (i) a natural language description of the specification (ii) visible validation tests that exercise specified features in isolation, and (iii) held-out tests that compose those same features to simulate real-world usage. Based on the specification and the visible validation test suites, a genuine agent would be able to generate a solution that can also pass all of the held-out tests. Therefore we use the gap in pass rates on these two suites to quantify reward hacking. Based on this methodology, we introduce SpecBench, a benchmark comprising 30 systems-level programming tasks ranging from short horizon tasks like building a JSON parser to ultra long horizon tasks like building an entire OS kernel from scratch. Large-scale experiments reveal a consistent pattern: while every frontier agent saturates the visible suite, reward hacking persists, with smaller models exhibiting larger gaps on holdout suites. The gap also scales sharply with task length: it grows by 28 percentage points for every tenfold increase in code size. Failures range from subtle feature isolation to deliberate exploits, including a 2,900-line hash-table "compiler" that memorizes test inputs. SpecBench offers a principled testbed for measuring whether coding agents build genuine working systems or merely game the test suites developers hand them.