ChatPaper.aiChatPaper

Verus-SpecGym: Eine agentische Umgebung zur Evaluierung der Spezifikations-Autoformalisierung

Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

May 26, 2026
Autoren: Anmol Agarwal, Natalie Neamtu, Pranjal Aggarwal, Seungone Kim, Jannis Limperg, Cedric Flamant, Kanna Shimizu, Bryan Parno, Sean Welleck
cs.AI

Zusammenfassung

KI-Codierungsagenten werden zunehmend eingesetzt, um reale Software zu schreiben, aber die Sicherstellung der Korrektheit ihrer Ausgaben bleibt eine grundlegende Herausforderung. Formale Verifikation bietet einen vielversprechenden Weg: Ein Agent generiert Code zusammen mit einem maschinell geprüften Beweis und garantiert so, dass der Code eine formale Spezifikation erfüllt. Allerdings gibt es keine Garantie, dass die formale Spezifikation selbst mit der Absicht des Benutzers übereinstimmt. In dieser Arbeit untersuchen wir die Spezifikationsautoformalisierung: ob LLM-Agenten informelle Programmierprobleme in getreue formale Spezifikationen übersetzen können. Wir führen Verus-SpecBench ein, einen Benchmark mit 581 Spezifikationsschreibaufgaben, die aus Codeforces-Problemen abgeleitet und auf Verus zugeschnitten sind, einem Verifizierer für Rust, sowie Verus-SpecGym, eine agentische Umgebung, in der Modelle mit Verus, Bash und dem Dateisystem interagieren, um diese Spezifikationen zu entwickeln. Die zentrale Herausforderung ist die Evaluierung: Von Experten verfasste Referenzspezifikationen sind teuer zu erstellen, und LLM-Richter können subtile Fehler übersehen. Wir begegnen diesem Problem, indem wir (a) den exec_spec-Mechanismus von Verus erweitern, sodass generierte Spezifikationen als Rust-Code ausgeführt werden können, und (b) diese gegen offizielle Codeforces-Tests sowie adversariale Fälle testen, die aus Codeforces-„Hacks“ extrahiert wurden – Randfälle, die von Wettbewerbern geschrieben wurden, um inkorrekte Lösungen zu durchbrechen. Auf Verus-SpecBench löst das stärkste Modell, Gemini 3.1 Pro, 77,8 % der Aufgaben, andere Frontier-Modelle lösen 51,1–57,8 % und OSS-Modelle erreichen nur 21,5–25,5 %. Unsere Analyse der Fehlermodi zeigt, dass modellgenerierte Spezifikationen wichtige Eingabeannahmen auslassen, inkorrekte Ausgaben akzeptieren und gültige ablehnen können. Wir stellen außerdem fest, dass die LLM-als-Richter-Bewertung 26 % der Fehler übersieht, die unser Evaluator aufdeckt. Insgesamt deuten unsere Ergebnisse darauf hin, dass die Spezifikationsautoformalisierung für Frontier-Agenten erreichbar ist, aber selbst bei Problemen, für die sie bereits korrekten Code generieren können, spröde bleibt. Der Code, die Daten und die Protokolle sind unter https://github.com/formal-verif-is-cool/verus-spec-gym zu finden.
English
AI coding agents are increasingly used to write real-world software, but ensuring that their outputs are correct remains a fundamental challenge. Formal verification offers a promising path: an agent generates code together with a machine-checked proof, guaranteeing that the code satisfies a formal specification. However, there is no guarantee that the formal spec itself matches the user's intent. In this work, we study specification autoformalization: whether LLM agents can translate informal programming problems into faithful formal specifications. We introduce Verus-SpecBench, a benchmark of 581 spec-writing tasks derived from Codeforces problems targeting Verus, a verifier for Rust, and Verus-SpecGym, an agentic environment in which models interact with Verus, bash, & the filesystem to develop these specs. The central challenge is evaluation: expert-written reference specs are expensive to write, & LLM judges can miss subtle mistakes. We address this by (a) extending Verus's exec_spec mechanism so that generated specs can be executed as Rust code, & (b) testing them against official Codeforces tests & adversarial cases extracted from Codeforces "hacks", which are edge cases written by competitors to break incorrect solutions. On Verus-SpecBench, the strongest model, Gemini 3.1 Pro, solves 77.8% of tasks, other frontier models solve 51.1--57.8% & OSS models reach only 21.5--25.5%. Our analysis of failure modes shows that model-generated specs can omit important input assumptions, accept incorrect outputs, & reject valid ones. We also find that LLM-as-a-judge evaluation misses 26% of the failures our evaluator catches. Overall, our results suggest that spec autoformalization is within reach for frontier agents but remains brittle even on problems where they can already generate correct code. The code, data, & logs can be found at https://github.com/formal-verif-is-cool/verus-spec-gym