Progetto Ariadne: Un Quadro Causale Strutturale per la Verifica della Fedeltà negli Agenti LLM

Abstract

Man mano che gli agenti basati su Large Language Model (LLM) vengono sempre più spesso incaricati di prendere decisioni autonome ad alto rischio, la trasparenza dei loro processi di ragionamento è diventata un problema critico per la sicurezza. Sebbene il prompting a Catena di Pensiero (Chain-of-Thought, CoT) consenta agli agenti di generare tracce di ragionamento leggibili dall'uomo, non è ancora chiaro se queste tracce siano dei veri e propri driver generativi fedeli dell'output del modello o semplicemente delle razionalizzazioni post-hoc. Introduciamo Progetto Ariadne, un nuovo framework di XAI (Explainable AI) che utilizza Modelli Causali Strutturali (Structural Causal Models, SCM) e logica controfattuale per verificare l'integrità causale del ragionamento agenziale. A differenza dei metodi di interpretabilità esistenti che si basano sulla similarità testuale superficiale, Progetto Ariadne esegue interventi forti (do-calculus) sui nodi intermedi del ragionamento – invertendo sistematicamente la logica, negando le premesse e ribaltando affermazioni fattuali – per misurare la Sensibilità Causale (φ) della risposta finale. La nostra valutazione empirica sui modelli più all'avanguardia rivela un persistente Divario di Fedeltà (Faithfulness Gap). Definiamo e rileviamo una diffusa modalità di fallimento, denominata Disaccoppiamento Causale (Causal Decoupling), in cui gli agenti mostrano una densità di violazione (ρ) fino a 0,77 in domini fattuali e scientifici. In questi casi, gli agenti giungono a conclusioni identiche nonostante una logica interna contraddittoria, dimostrando che le loro tracce di ragionamento funzionano come un "Teatro del Ragionamento" (Reasoning Theater) mentre il processo decisionale è governato da prior parametrici latenti. I nostri risultati suggeriscono che le architetture agenziali attuali sono intrinsecamente prone a spiegazioni non fedeli, e proponiamo il Punteggio Ariadne (Ariadne Score) come nuovo benchmark per allineare la logica dichiarata con l'azione del modello.

English

As Large Language Model (LLM) agents are increasingly tasked with high-stakes autonomous decision-making, the transparency of their reasoning processes has become a critical safety concern. While Chain-of-Thought (CoT) prompting allows agents to generate human-readable reasoning traces, it remains unclear whether these traces are faithful generative drivers of the model's output or merely post-hoc rationalizations. We introduce Project Ariadne, a novel XAI framework that utilizes Structural Causal Models (SCMs) and counterfactual logic to audit the causal integrity of agentic reasoning. Unlike existing interpretability methods that rely on surface-level textual similarity, Project Ariadne performs hard interventions (do-calculus) on intermediate reasoning nodes -- systematically inverting logic, negating premises, and reversing factual claims -- to measure the Causal Sensitivity (φ) of the terminal answer. Our empirical evaluation of state-of-the-art models reveals a persistent Faithfulness Gap. We define and detect a widespread failure mode termed Causal Decoupling, where agents exhibit a violation density (ρ) of up to 0.77 in factual and scientific domains. In these instances, agents arrive at identical conclusions despite contradictory internal logic, proving that their reasoning traces function as "Reasoning Theater" while decision-making is governed by latent parametric priors. Our findings suggest that current agentic architectures are inherently prone to unfaithful explanation, and we propose the Ariadne Score as a new benchmark for aligning stated logic with model action.

Progetto Ariadne: Un Quadro Causale Strutturale per la Verifica della Fedeltà negli Agenti LLM

Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents

Abstract

Support