ChatPaper.aiChatPaper

Verus-SpecGym: агентная среда для оценки автоформализации спецификаций

Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

May 26, 2026
Авторы: Anmol Agarwal, Natalie Neamtu, Pranjal Aggarwal, Seungone Kim, Jannis Limperg, Cedric Flamant, Kanna Shimizu, Bryan Parno, Sean Welleck
cs.AI

Аннотация

AI-агенты для написания кода всё чаще используются для создания реального программного обеспечения, однако обеспечение корректности их выходных данных остаётся фундаментальной задачей. Формальная верификация предлагает многообещающий подход: агент генерирует код вместе с машинно-проверяемым доказательством, гарантирующим, что код удовлетворяет формальной спецификации. Однако нет гарантии, что сама формальная спецификация соответствует намерениям пользователя. В данной работе мы исследуем автоформализацию спецификаций: способность LLM-агентов переводить неформальные задачи по программированию в точные формальные спецификации. Мы представляем Verus-SpecBench — набор тестов из 581 задачи на написание спецификаций, полученных из задач Codeforces и ориентированных на Verus (верификатор для Rust), а также Verus-SpecGym — агентную среду, в которой модели взаимодействуют с Verus, bash и файловой системой для разработки этих спецификаций. Ключевая проблема заключается в оценке: написание эталонных спецификаций экспертами требует больших затрат, а LLM-судьи могут упускать тонкие ошибки. Мы решаем эту проблему, (a) расширяя механизм exec_spec в Verus, чтобы сгенерированные спецификации могли выполняться как код на Rust, и (b) проверяя их на официальных тестах Codeforces и adversarial-примерах, извлечённых из «взломов» Codeforces (граничных случаев, написанных участниками для опровержения некорректных решений). На Verus-SpecBench самая сильная модель — Gemini 3.1 Pro — решает 77,8% задач, другие передовые модели — 51,1–57,8%, а модели с открытым исходным кодом достигают лишь 21,5–25,5%. Анализ типов сбоев показывает, что сгенерированные моделями спецификации могут упускать важные предположения о входных данных, принимать некорректные выходные данные и отклонять корректные. Мы также обнаружили, что оценка с помощью LLM-судьи пропускает 26% сбоев, которые выявляет наш метод оценки. В целом, наши результаты показывают, что автоформализация спецификаций достижима для передовых агентов, но остаётся ненадёжной даже для задач, где они уже могут генерировать корректный код. Код, данные и журналы доступны по адресу https://github.com/formal-verif-is-cool/verus-spec-gym.
English
AI coding agents are increasingly used to write real-world software, but ensuring that their outputs are correct remains a fundamental challenge. Formal verification offers a promising path: an agent generates code together with a machine-checked proof, guaranteeing that the code satisfies a formal specification. However, there is no guarantee that the formal spec itself matches the user's intent. In this work, we study specification autoformalization: whether LLM agents can translate informal programming problems into faithful formal specifications. We introduce Verus-SpecBench, a benchmark of 581 spec-writing tasks derived from Codeforces problems targeting Verus, a verifier for Rust, and Verus-SpecGym, an agentic environment in which models interact with Verus, bash, & the filesystem to develop these specs. The central challenge is evaluation: expert-written reference specs are expensive to write, & LLM judges can miss subtle mistakes. We address this by (a) extending Verus's exec_spec mechanism so that generated specs can be executed as Rust code, & (b) testing them against official Codeforces tests & adversarial cases extracted from Codeforces "hacks", which are edge cases written by competitors to break incorrect solutions. On Verus-SpecBench, the strongest model, Gemini 3.1 Pro, solves 77.8% of tasks, other frontier models solve 51.1--57.8% & OSS models reach only 21.5--25.5%. Our analysis of failure modes shows that model-generated specs can omit important input assumptions, accept incorrect outputs, & reject valid ones. We also find that LLM-as-a-judge evaluation misses 26% of the failures our evaluator catches. Overall, our results suggest that spec autoformalization is within reach for frontier agents but remains brittle even on problems where they can already generate correct code. The code, data, & logs can be found at https://github.com/formal-verif-is-cool/verus-spec-gym