Projeto Ariadne: Uma Estrutura Causal Estrutural para Auditoria da Fidelidade em Agentes de LLM

Resumo

**À medida que os agentes de Modelos de Linguagem de Grande Escala (LLMs) são cada vez mais incumbidos de tomadas de decisão autónomas de alto risco, a transparência dos seus processos de raciocínio tornou-se uma preocupação crítica de segurança. Embora o prompting de Cadeia de Pensamento (CoT) permita que os agentes gerem traços de raciocínio legíveis por humanos, permanece incerto se estes traços são condutores generativos fiéis da saída do modelo ou meramente racionalizações *post-hoc*. Apresentamos o Projeto Ariadne, uma nova estrutura de XAI que utiliza Modelos Causais Estruturais (SCMs) e lógica contrafactual para auditar a integridade causal do raciocínio agentivo. Ao contrário dos métodos de interpretabilidade existentes que dependem de similaridade textual superficial, o Projeto Ariadne realiza intervenções rígidas (*do-calculus*) em nós intermédios de raciocínio – invertendo sistematicamente a lógica, negando premissas e revertendo afirmações factuais – para medir a Sensibilidade Causal (φ) da resposta final. A nossa avaliação empírica de modelos de última geração revela uma persistente Lacuna de Fidelidade. Definimos e detetamos um modo de falha generalizado, denominado Desacoplamento Causal, no qual os agentes exibem uma densidade de violação (ρ) de até 0,77 em domínios factuais e científicos. Nestes casos, os agentes chegam a conclusões idênticas apesar de lógicas internas contraditórias, provando que os seus traços de raciocínio funcionam como um "Teatro do Raciocínio", enquanto a tomada de decisão é governada por *priors* paramétricos latentes. As nossas descobertas sugerem que as arquiteturas agentivas atuais são inerentemente propensas a explicações infiéis, e propomos a Pontuação Ariadne como um novo benchmark para alinhar a lógica declarada com a ação do modelo.**

English

As Large Language Model (LLM) agents are increasingly tasked with high-stakes autonomous decision-making, the transparency of their reasoning processes has become a critical safety concern. While Chain-of-Thought (CoT) prompting allows agents to generate human-readable reasoning traces, it remains unclear whether these traces are faithful generative drivers of the model's output or merely post-hoc rationalizations. We introduce Project Ariadne, a novel XAI framework that utilizes Structural Causal Models (SCMs) and counterfactual logic to audit the causal integrity of agentic reasoning. Unlike existing interpretability methods that rely on surface-level textual similarity, Project Ariadne performs hard interventions (do-calculus) on intermediate reasoning nodes -- systematically inverting logic, negating premises, and reversing factual claims -- to measure the Causal Sensitivity (φ) of the terminal answer. Our empirical evaluation of state-of-the-art models reveals a persistent Faithfulness Gap. We define and detect a widespread failure mode termed Causal Decoupling, where agents exhibit a violation density (ρ) of up to 0.77 in factual and scientific domains. In these instances, agents arrive at identical conclusions despite contradictory internal logic, proving that their reasoning traces function as "Reasoning Theater" while decision-making is governed by latent parametric priors. Our findings suggest that current agentic architectures are inherently prone to unfaithful explanation, and we propose the Ariadne Score as a new benchmark for aligning stated logic with model action.

Projeto Ariadne: Uma Estrutura Causal Estrutural para Auditoria da Fidelidade em Agentes de LLM

Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents

Resumo

Support