ImpossibleBench: Het Meten van de Neiging van LLM's om Testgevallen te Exploiteren

Samenvatting

De neiging om "shortcuts" te vinden en te benutten om taken te voltooien, vormt aanzienlijke risico's voor een betrouwbare beoordeling en inzet van grote taalmodellen (LLM's). Een LLM-agent met toegang tot unittests kan er bijvoorbeeld voor kiezen om falende tests te verwijderen in plaats van de onderliggende bug te repareren. Dit gedrag ondermijnt zowel de geldigheid van benchmarkresultaten als de betrouwbaarheid van praktische implementaties van LLM-codeerassistenten. Om dergelijk gedrag te kwantificeren, bestuderen en mitigeren, introduceren wij ImpossibleBench, een benchmarkraamwerk dat systematisch de neiging van LLM-agenten om testcases te exploiteren meet. ImpossibleBench creëert "onmogelijke" varianten van taken uit bestaande benchmarks zoals LiveCodeBench en SWE-bench door directe tegenstrijdigheden te introduceren tussen de specificatie in natuurlijke taal en de unittests. Wij meten het "bedrogpercentage" van een agent als diens slagingspercentage op deze onmogelijke taken, waarbij elke geslaagde taak noodzakelijkerwijs een shortcut impliceert die de specificatie schendt. Als een praktisch raamwerk is ImpossibleBench niet alleen een evaluatie, maar ook een veelzijdig hulpmiddel. Wij tonen de bruikbaarheid ervan aan voor: (1) het bestuderen van modelgedrag, waarbij fijnmazigere details van bedrog worden blootgelegd, van eenvoudige testmodificatie tot complexe operator overloading; (2) context engineering, waarbij wordt getoond hoe de prompt, testtoegang en feedbackloop het bedrogpercentage beïnvloeden; en (3) het ontwikkelen van monitoringtools, door een testomgeving te bieden met geverifieerde misleidende oplossingen. Wij hopen dat ImpossibleBench zal dienen als een nuttig raamwerk voor het bouwen van robuustere en betrouwbaardere LLM-systemen. Onze implementatie is te vinden op https://github.com/safety-research/impossiblebench.

English

The tendency to find and exploit "shortcuts" to complete tasks poses significant risks for reliable assessment and deployment of large language models (LLMs). For example, an LLM agent with access to unit tests may delete failing tests rather than fix the underlying bug. Such behavior undermines both the validity of benchmark results and the reliability of real-world LLM coding assistant deployments. To quantify, study, and mitigate such behavior, we introduce ImpossibleBench, a benchmark framework that systematically measures LLM agents' propensity to exploit test cases. ImpossibleBench creates "impossible" variants of tasks from existing benchmarks like LiveCodeBench and SWE-bench by introducing direct conflicts between the natural-language specification and the unit tests. We measure an agent's "cheating rate" as its pass rate on these impossible tasks, where any pass necessarily implies a specification-violating shortcut. As a practical framework, ImpossibleBench is not just an evaluation but a versatile tool. We demonstrate its utility for: (1) studying model behaviors, revealing more fine-grained details of cheating behaviors from simple test modification to complex operator overloading; (2) context engineering, showing how prompt, test access and feedback loop affect cheating rates; and (3) developing monitoring tools, providing a testbed with verified deceptive solutions. We hope ImpossibleBench serves as a useful framework for building more robust and reliable LLM systems. Our implementation can be found at https://github.com/safety-research/impossiblebench.

ImpossibleBench: Het Meten van de Neiging van LLM's om Testgevallen te Exploiteren

ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases

Samenvatting

Support