Project Ariadne: Een Structureel Causaal Raamwerk voor het Auditen van Getrouwheid in LLM-Agenten
Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents
January 5, 2026
Auteurs: Sourena Khanzadeh
cs.AI
Samenvatting
Naarmate Large Language Model (LLM)-agenten steeds vaker worden ingezet voor autonome besluitvorming met grote gevolgen, is de transparantie van hun redeneerprocessen een kritieke veiligheidskwestie geworden. Hoewel Chain-of-Thought (CoT)-prompting agenten in staat stelt menselijk leesbare redeneersporen te genereren, is het onduidelijk of deze sporen getrouwe generatieve drijvers van de modeloutput zijn of slechts post-hoc rationalisaties. Wij introduceren Project Ariadne, een nieuw XAI-raamwerk dat Structurele Causale Modellen (SCM's) en contrafeitelijke logica gebruikt om de causale integriteit van agentisch redeneren te auditen. In tegenstelling tot bestaande interpreteerbaarheidsmethoden die vertrouwen op oppervlakkige tekstuele gelijkenis, voert Project Ariadne harde interventies (do-calculus) uit op intermediaire redeneerknooppunten – door systematisch logica om te keren, premissen te ontkennen en feitelijke beweringen om te draaien – om de Causale Gevoeligheid (φ) van het uiteindelijke antwoord te meten. Onze empirische evaluatie van state-of-the-art modellen onthult een hardnekkige Getrouwheidskloof. Wij definiëren en detecteren een wijdverbreide faalmodus, genaamd Causale Ontkoppeling, waarbij agenten een overtredingsdichtheid (ρ) vertonen van tot 0.77 in feitelijke en wetenschappelijke domeinen. In deze gevallen komen agenten tot identieke conclusies ondanks tegenstrijdige interne logica, wat bewijst dat hun redeneersporen functioneren als "Reasoning Theater" terwijl de besluitvorming wordt gestuurd door latente parametrische prioren. Onze bevindingen suggereren dat huidige agentische architecturen inherent vatbaar zijn voor ongetrouwe verklaringen, en wij stellen de Ariadne-score voor als een nieuwe benchmark voor het afstemmen van vermelde logica op modelactie.
English
As Large Language Model (LLM) agents are increasingly tasked with high-stakes autonomous decision-making, the transparency of their reasoning processes has become a critical safety concern. While Chain-of-Thought (CoT) prompting allows agents to generate human-readable reasoning traces, it remains unclear whether these traces are faithful generative drivers of the model's output or merely post-hoc rationalizations. We introduce Project Ariadne, a novel XAI framework that utilizes Structural Causal Models (SCMs) and counterfactual logic to audit the causal integrity of agentic reasoning. Unlike existing interpretability methods that rely on surface-level textual similarity, Project Ariadne performs hard interventions (do-calculus) on intermediate reasoning nodes -- systematically inverting logic, negating premises, and reversing factual claims -- to measure the Causal Sensitivity (φ) of the terminal answer. Our empirical evaluation of state-of-the-art models reveals a persistent Faithfulness Gap. We define and detect a widespread failure mode termed Causal Decoupling, where agents exhibit a violation density (ρ) of up to 0.77 in factual and scientific domains. In these instances, agents arrive at identical conclusions despite contradictory internal logic, proving that their reasoning traces function as "Reasoning Theater" while decision-making is governed by latent parametric priors. Our findings suggest that current agentic architectures are inherently prone to unfaithful explanation, and we propose the Ariadne Score as a new benchmark for aligning stated logic with model action.