ChatPaper.aiChatPaper

Lokaler Erfolg führt nicht zu Komposition: Benchmarking von großen Sprachmodellen für die kompositionelle formale Verifikation

Local Success Does Not Compose: Benchmarking Large Language Models for Compositional Formal Verification

September 27, 2025
papers.authors: Xu Xu, Xin Li, Xingwei Qu, Jie Fu, Binhang Yuan
cs.AI

papers.abstract

Wir stellen DafnyCOMP vor, einen Benchmark zur Bewertung von großen Sprachmodellen (LLMs) hinsichtlich der generativen Komposition von Spezifikationen in Dafny. Im Gegensatz zu früheren Benchmarks, die sich auf Aufgaben mit einzelnen Funktionen konzentrieren, zielt DafnyCOMP auf Programme ab, die aus mehreren interagierenden Funktionen mit Datenabhängigkeiten bestehen und somit eine übergreifende Argumentation über Komponentengrenzen hinweg erfordern. Der Benchmark umfasst 300 automatisch synthetisierte Programme mit mehreren Funktionen. Wir evaluieren mehrere state-of-the-art LLM-Familien und stellen fest, dass diese zwar bei der Verifikation einzelner Funktionen gut abschneiden, ihre Leistung jedoch bei kompositionellen Aufgaben deutlich abfällt. Analysen zeigen systematische Schwächen in der funktionsübergreifenden Argumentation, darunter fragile Spezifikationen, Fehlausrichtungen zwischen Implementierungen und Beweisen sowie instabile Schlussfolgerungen. DafnyCOMP bietet somit ein diagnostisches Werkzeug, um Fortschritte in Richtung einer zuverlässigen, verifizierbaren und kompositionellen Codegenerierung mit LLMs zu messen.
English
We introduce DafnyCOMP, a benchmark for evaluating large language models (LLMs) on compositional specification generation in Dafny. Unlike prior benchmarks that focus on single-function tasks, DafnyCOMP targets programs composed of multiple interacting functions with data dependencies, requiring reasoning across component boundaries. The benchmark consists of 300 automatically synthesized multi-function programs. We evaluate several state-of-the-art LLM families and find that, while they perform well on single-function verification, their performance drops sharply on compositional tasks. Analysis reveals systematic failures in cross-functional reasoning, including fragile specifications, misalignment between implementations and proofs, and unstable reasoning. DafnyCOMP thus provides a diagnostic tool for measuring progress toward reliable, verifiable, and compositional code generation with LLMs.
PDF42September 30, 2025