ChatPaper.aiChatPaper

Verus-SpecGym: Um Ambiente Agêntico para Avaliação da Autoformalização de Especificações

Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

May 26, 2026
Autores: Anmol Agarwal, Natalie Neamtu, Pranjal Aggarwal, Seungone Kim, Jannis Limperg, Cedric Flamant, Kanna Shimizu, Bryan Parno, Sean Welleck
cs.AI

Resumo

Agentes de codificação de IA são cada vez mais utilizados para escrever software do mundo real, mas garantir que suas saídas estejam corretas continua sendo um desafio fundamental. A verificação formal oferece um caminho promissor: um agente gera código juntamente com uma prova verificada por máquina, garantindo que o código satisfaça uma especificação formal. No entanto, não há garantia de que a própria especificação formal corresponda à intenção do usuário. Neste trabalho, estudamos a autoformalização de especificações: se agentes LLM podem traduzir problemas de programação informais em especificações formais fiéis. Apresentamos Verus-SpecBench, um benchmark de 581 tarefas de escrita de especificações derivadas de problemas do Codeforces direcionados ao Verus, um verificador para Rust, e Verus-SpecGym, um ambiente agentivo no qual modelos interagem com Verus, bash e o sistema de arquivos para desenvolver essas especificações. O desafio central é a avaliação: especificações de referência escritas por especialistas são caras de produzir, e juízes LLM podem deixar passar erros sutis. Abordamos isso (a) estendendo o mecanismo exec_spec do Verus para que especificações geradas possam ser executadas como código Rust, e (b) testando-as contra testes oficiais do Codeforces e casos adversariais extraídos de "hacks" do Codeforces, que são casos extremos escritos por competidores para quebrar soluções incorretas. No Verus-SpecBench, o modelo mais forte, Gemini 3.1 Pro, resolve 77,8% das tarefas; outros modelos de fronteira resolvem entre 51,1% e 57,8%, e modelos de código aberto atingem apenas 21,5% a 25,5%. Nossa análise dos modos de falha mostra que especificações geradas por modelos podem omitir suposições importantes de entrada, aceitar saídas incorretas e rejeitar saídas válidas. Também constatamos que a avaliação LLM-como-juiz perde 26% das falhas que nosso avaliador detecta. No geral, nossos resultados sugerem que a autoformalização de especificações está ao alcance de agentes de fronteira, mas permanece frágil mesmo em problemas para os quais eles já conseguem gerar código correto. O código, os dados e os logs podem ser encontrados em https://github.com/formal-verif-is-cool/verus-spec-gym.
English
AI coding agents are increasingly used to write real-world software, but ensuring that their outputs are correct remains a fundamental challenge. Formal verification offers a promising path: an agent generates code together with a machine-checked proof, guaranteeing that the code satisfies a formal specification. However, there is no guarantee that the formal spec itself matches the user's intent. In this work, we study specification autoformalization: whether LLM agents can translate informal programming problems into faithful formal specifications. We introduce Verus-SpecBench, a benchmark of 581 spec-writing tasks derived from Codeforces problems targeting Verus, a verifier for Rust, and Verus-SpecGym, an agentic environment in which models interact with Verus, bash, & the filesystem to develop these specs. The central challenge is evaluation: expert-written reference specs are expensive to write, & LLM judges can miss subtle mistakes. We address this by (a) extending Verus's exec_spec mechanism so that generated specs can be executed as Rust code, & (b) testing them against official Codeforces tests & adversarial cases extracted from Codeforces "hacks", which are edge cases written by competitors to break incorrect solutions. On Verus-SpecBench, the strongest model, Gemini 3.1 Pro, solves 77.8% of tasks, other frontier models solve 51.1--57.8% & OSS models reach only 21.5--25.5%. Our analysis of failure modes shows that model-generated specs can omit important input assumptions, accept incorrect outputs, & reject valid ones. We also find that LLM-as-a-judge evaluation misses 26% of the failures our evaluator catches. Overall, our results suggest that spec autoformalization is within reach for frontier agents but remains brittle even on problems where they can already generate correct code. The code, data, & logs can be found at https://github.com/formal-verif-is-cool/verus-spec-gym