ChatPaper.aiChatPaper

El éxito local no se compone: evaluación comparativa de modelos de lenguaje extenso para la verificación formal composicional.

Local Success Does Not Compose: Benchmarking Large Language Models for Compositional Formal Verification

September 27, 2025
Autores: Xu Xu, Xin Li, Xingwei Qu, Jie Fu, Binhang Yuan
cs.AI

Resumen

Presentamos DafnyCOMP, un punto de referencia para evaluar modelos de lenguaje de gran escala (LLMs) en la generación de especificaciones composicionales en Dafny. A diferencia de puntos de referencia previos que se centran en tareas de una sola función, DafnyCOMP se enfoca en programas compuestos por múltiples funciones interactivas con dependencias de datos, lo que requiere razonamiento a través de los límites de los componentes. El punto de referencia consta de 300 programas multifunción sintetizados automáticamente. Evaluamos varias familias de LLMs de última generación y encontramos que, aunque tienen un buen desempeño en la verificación de funciones individuales, su rendimiento disminuye drásticamente en tareas composicionales. El análisis revela fallos sistemáticos en el razonamiento entre funciones, incluyendo especificaciones frágiles, desalineación entre implementaciones y pruebas, y razonamiento inestable. DafnyCOMP proporciona así una herramienta diagnóstica para medir el avance hacia la generación de código confiable, verificable y composicional con LLMs.
English
We introduce DafnyCOMP, a benchmark for evaluating large language models (LLMs) on compositional specification generation in Dafny. Unlike prior benchmarks that focus on single-function tasks, DafnyCOMP targets programs composed of multiple interacting functions with data dependencies, requiring reasoning across component boundaries. The benchmark consists of 300 automatically synthesized multi-function programs. We evaluate several state-of-the-art LLM families and find that, while they perform well on single-function verification, their performance drops sharply on compositional tasks. Analysis reveals systematic failures in cross-functional reasoning, including fragile specifications, misalignment between implementations and proofs, and unstable reasoning. DafnyCOMP thus provides a diagnostic tool for measuring progress toward reliable, verifiable, and compositional code generation with LLMs.
PDF42September 30, 2025