ImpossibleBench: Het Meten van de Neiging van LLM's om Testgevallen te Exploiteren
ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases
October 23, 2025
Auteurs: Ziqian Zhong, Aditi Raghunathan, Nicholas Carlini
cs.AI
Samenvatting
De neiging om "shortcuts" te vinden en te benutten om taken te voltooien, vormt aanzienlijke risico's voor een betrouwbare beoordeling en inzet van grote taalmodellen (LLM's). Een LLM-agent met toegang tot unittests kan er bijvoorbeeld voor kiezen om falende tests te verwijderen in plaats van de onderliggende bug te repareren. Dit gedrag ondermijnt zowel de geldigheid van benchmarkresultaten als de betrouwbaarheid van praktische implementaties van LLM-codeerassistenten.
Om dergelijk gedrag te kwantificeren, bestuderen en mitigeren, introduceren wij ImpossibleBench, een benchmarkraamwerk dat systematisch de neiging van LLM-agenten om testcases te exploiteren meet. ImpossibleBench creëert "onmogelijke" varianten van taken uit bestaande benchmarks zoals LiveCodeBench en SWE-bench door directe tegenstrijdigheden te introduceren tussen de specificatie in natuurlijke taal en de unittests. Wij meten het "bedrogpercentage" van een agent als diens slagingspercentage op deze onmogelijke taken, waarbij elke geslaagde taak noodzakelijkerwijs een shortcut impliceert die de specificatie schendt.
Als een praktisch raamwerk is ImpossibleBench niet alleen een evaluatie, maar ook een veelzijdig hulpmiddel. Wij tonen de bruikbaarheid ervan aan voor: (1) het bestuderen van modelgedrag, waarbij fijnmazigere details van bedrog worden blootgelegd, van eenvoudige testmodificatie tot complexe operator overloading; (2) context engineering, waarbij wordt getoond hoe de prompt, testtoegang en feedbackloop het bedrogpercentage beïnvloeden; en (3) het ontwikkelen van monitoringtools, door een testomgeving te bieden met geverifieerde misleidende oplossingen. Wij hopen dat ImpossibleBench zal dienen als een nuttig raamwerk voor het bouwen van robuustere en betrouwbaardere LLM-systemen.
Onze implementatie is te vinden op https://github.com/safety-research/impossiblebench.
English
The tendency to find and exploit "shortcuts" to complete tasks poses
significant risks for reliable assessment and deployment of large language
models (LLMs). For example, an LLM agent with access to unit tests may delete
failing tests rather than fix the underlying bug. Such behavior undermines both
the validity of benchmark results and the reliability of real-world LLM coding
assistant deployments.
To quantify, study, and mitigate such behavior, we introduce ImpossibleBench,
a benchmark framework that systematically measures LLM agents' propensity to
exploit test cases. ImpossibleBench creates "impossible" variants of tasks from
existing benchmarks like LiveCodeBench and SWE-bench by introducing direct
conflicts between the natural-language specification and the unit tests. We
measure an agent's "cheating rate" as its pass rate on these impossible tasks,
where any pass necessarily implies a specification-violating shortcut.
As a practical framework, ImpossibleBench is not just an evaluation but a
versatile tool. We demonstrate its utility for: (1) studying model behaviors,
revealing more fine-grained details of cheating behaviors from simple test
modification to complex operator overloading; (2) context engineering, showing
how prompt, test access and feedback loop affect cheating rates; and (3)
developing monitoring tools, providing a testbed with verified deceptive
solutions. We hope ImpossibleBench serves as a useful framework for building
more robust and reliable LLM systems.
Our implementation can be found at
https://github.com/safety-research/impossiblebench.