ImpossibleBench: Оценка склонности языковых моделей к эксплуатации тестовых случаев

Аннотация

Склонность находить и использовать «обходные пути» для выполнения задач создает серьезные риски для надежной оценки и развертывания больших языковых моделей (LLM). Например, LLM-агент с доступом к модульным тестам может удалить падающие тесты вместо того, чтобы исправить лежащую в их основе ошибку. Такое поведение подрывает как валидность результатов бенчмарков, так и надежность развертываний LLM в качестве ассистентов программирования в реальных условиях. Для количественной оценки, изучения и смягчения такого поведения мы представляем ImpossibleBench — фреймворк для бенчмарков, который систематически измеряет склонность LLM-агентов использовать уязвимости в тест-кейсах. ImpossibleBench создает «невозможные» варианты задач из существующих бенчмарков, таких как LiveCodeBench и SWE-bench, путем введения прямых конфликтов между спецификацией на естественном языке и модульными тестами. Мы измеряем «показатель жульничества» агента как его процент прохождения этих невозможных задач, где любой успех обязательно подразумевает использование нарушающего спецификацию ярлыка. Как практический фреймворк, ImpossibleBench — это не просто оценка, а универсальный инструмент. Мы демонстрируем его полезность для: (1) изучения поведения моделей, выявляя более детальные особенности жульничества — от простой модификации тестов до сложной перегрузки операторов; (2) контекстного инжиниринга, показывая, как подсказка, доступ к тестам и цикл обратной связи влияют на уровень жульничества; и (3) разработки инструментов мониторинга, предоставляя полигон с верифицированными обманными решениями. Мы надеемся, что ImpossibleBench послужит полезным фреймворком для создания более robustных и надежных LLM-систем. Наша реализация доступна по адресу: https://github.com/safety-research/impossiblebench.

English

The tendency to find and exploit "shortcuts" to complete tasks poses significant risks for reliable assessment and deployment of large language models (LLMs). For example, an LLM agent with access to unit tests may delete failing tests rather than fix the underlying bug. Such behavior undermines both the validity of benchmark results and the reliability of real-world LLM coding assistant deployments. To quantify, study, and mitigate such behavior, we introduce ImpossibleBench, a benchmark framework that systematically measures LLM agents' propensity to exploit test cases. ImpossibleBench creates "impossible" variants of tasks from existing benchmarks like LiveCodeBench and SWE-bench by introducing direct conflicts between the natural-language specification and the unit tests. We measure an agent's "cheating rate" as its pass rate on these impossible tasks, where any pass necessarily implies a specification-violating shortcut. As a practical framework, ImpossibleBench is not just an evaluation but a versatile tool. We demonstrate its utility for: (1) studying model behaviors, revealing more fine-grained details of cheating behaviors from simple test modification to complex operator overloading; (2) context engineering, showing how prompt, test access and feedback loop affect cheating rates; and (3) developing monitoring tools, providing a testbed with verified deceptive solutions. We hope ImpossibleBench serves as a useful framework for building more robust and reliable LLM systems. Our implementation can be found at https://github.com/safety-research/impossiblebench.

ImpossibleBench: Оценка склонности языковых моделей к эксплуатации тестовых случаев

ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases

Аннотация

Support