ChatPaper.aiChatPaper

Gramáticas da Incerteza Formal: Quando Confiar em LLMs em Tarefas de Raciocínio Automatizado

Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks

May 26, 2025
Autores: Debargha Ganguly, Vikash Singh, Sreehari Sankar, Biyao Zhang, Xuecen Zhang, Srinivasan Iyengar, Xiaotian Han, Amit Sharma, Shivkumar Kalyanaraman, Vipin Chaudhary
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) demonstram um potencial notável para democratizar o raciocínio automatizado ao gerar especificações formais. No entanto, existe uma tensão fundamental: LLMs são probabilísticos, enquanto a verificação formal exige garantias determinísticas. Este artigo aborda essa lacuna epistemológica ao investigar de forma abrangente os modos de falha e a quantificação de incerteza (UQ) em artefatos formais gerados por LLMs. Nossa avaliação sistemática de cinco LLMs de ponta revela o impacto específico do domínio da autoformalização baseada em Satisfiability Modulo Theories (SMT) na precisão (variando de +34,8% em tarefas lógicas a -44,5% em tarefas factuais), com técnicas conhecidas de UQ, como a entropia das probabilidades de tokens, falhando em identificar esses erros. Introduzimos uma estrutura de gramática livre de contexto probabilística (PCFG) para modelar as saídas dos LLMs, resultando em uma taxonomia de incerteza refinada. Descobrimos que os sinais de incerteza são dependentes da tarefa (por exemplo, entropia gramatical para lógica, AUROC>0,93). Por fim, uma fusão leve desses sinais permite a verificação seletiva, reduzindo drasticamente os erros (14-100%) com uma abstenção mínima, transformando a formalização impulsionada por LLMs em uma disciplina de engenharia confiável.
English
Large language models (LLMs) show remarkable promise for democratizing automated reasoning by generating formal specifications. However, a fundamental tension exists: LLMs are probabilistic, while formal verification demands deterministic guarantees. This paper addresses this epistemological gap by comprehensively investigating failure modes and uncertainty quantification (UQ) in LLM-generated formal artifacts. Our systematic evaluation of five frontier LLMs reveals Satisfiability Modulo Theories (SMT) based autoformalization's domain-specific impact on accuracy (from +34.8% on logical tasks to -44.5% on factual ones), with known UQ techniques like the entropy of token probabilities failing to identify these errors. We introduce a probabilistic context-free grammar (PCFG) framework to model LLM outputs, yielding a refined uncertainty taxonomy. We find uncertainty signals are task-dependent (e.g., grammar entropy for logic, AUROC>0.93). Finally, a lightweight fusion of these signals enables selective verification, drastically reducing errors (14-100%) with minimal abstention, transforming LLM-driven formalization into a reliable engineering discipline.
PDF32June 2, 2025