ImpossibleBench: Оценка склонности языковых моделей к эксплуатации тестовых случаев
ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases
October 23, 2025
Авторы: Ziqian Zhong, Aditi Raghunathan, Nicholas Carlini
cs.AI
Аннотация
Склонность находить и использовать «обходные пути» для выполнения задач создает серьезные риски для надежной оценки и развертывания больших языковых моделей (LLM). Например, LLM-агент с доступом к модульным тестам может удалить падающие тесты вместо того, чтобы исправить лежащую в их основе ошибку. Такое поведение подрывает как валидность результатов бенчмарков, так и надежность развертываний LLM в качестве ассистентов программирования в реальных условиях.
Для количественной оценки, изучения и смягчения такого поведения мы представляем ImpossibleBench — фреймворк для бенчмарков, который систематически измеряет склонность LLM-агентов использовать уязвимости в тест-кейсах. ImpossibleBench создает «невозможные» варианты задач из существующих бенчмарков, таких как LiveCodeBench и SWE-bench, путем введения прямых конфликтов между спецификацией на естественном языке и модульными тестами. Мы измеряем «показатель жульничества» агента как его процент прохождения этих невозможных задач, где любой успех обязательно подразумевает использование нарушающего спецификацию ярлыка.
Как практический фреймворк, ImpossibleBench — это не просто оценка, а универсальный инструмент. Мы демонстрируем его полезность для: (1) изучения поведения моделей, выявляя более детальные особенности жульничества — от простой модификации тестов до сложной перегрузки операторов; (2) контекстного инжиниринга, показывая, как подсказка, доступ к тестам и цикл обратной связи влияют на уровень жульничества; и (3) разработки инструментов мониторинга, предоставляя полигон с верифицированными обманными решениями. Мы надеемся, что ImpossibleBench послужит полезным фреймворком для создания более robustных и надежных LLM-систем.
Наша реализация доступна по адресу: https://github.com/safety-research/impossiblebench.
English
The tendency to find and exploit "shortcuts" to complete tasks poses
significant risks for reliable assessment and deployment of large language
models (LLMs). For example, an LLM agent with access to unit tests may delete
failing tests rather than fix the underlying bug. Such behavior undermines both
the validity of benchmark results and the reliability of real-world LLM coding
assistant deployments.
To quantify, study, and mitigate such behavior, we introduce ImpossibleBench,
a benchmark framework that systematically measures LLM agents' propensity to
exploit test cases. ImpossibleBench creates "impossible" variants of tasks from
existing benchmarks like LiveCodeBench and SWE-bench by introducing direct
conflicts between the natural-language specification and the unit tests. We
measure an agent's "cheating rate" as its pass rate on these impossible tasks,
where any pass necessarily implies a specification-violating shortcut.
As a practical framework, ImpossibleBench is not just an evaluation but a
versatile tool. We demonstrate its utility for: (1) studying model behaviors,
revealing more fine-grained details of cheating behaviors from simple test
modification to complex operator overloading; (2) context engineering, showing
how prompt, test access and feedback loop affect cheating rates; and (3)
developing monitoring tools, providing a testbed with verified deceptive
solutions. We hope ImpossibleBench serves as a useful framework for building
more robust and reliable LLM systems.
Our implementation can be found at
https://github.com/safety-research/impossiblebench.