ChatPaper.aiChatPaper

Projekt Ariadne: Ein strukturelles kausales Framework zur Überprüfung der Wahrhaftigkeit in LLM-Agenten

Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents

January 5, 2026
papers.authors: Sourena Khanzadeh
cs.AI

papers.abstract

Da KI-Agenten auf Basis großer Sprachmodelle (LLM) zunehmend mit autonomen Entscheidungen mit hohen Konsequenzen betraut werden, ist die Nachvollziehbarkeit ihrer Denkprozesse zu einem kritischen Sicherheitsproblem geworden. Zwar ermöglicht Chain-of-Thought (CoT)-Prompting die Generierung menschenlesbarer Begründungspfade, doch bleibt unklar, ob diese Pfade tatsächlich treibende generative Faktoren für die Modellausgabe sind oder lediglich nachträgliche Rationalisierungen darstellen. Wir stellen Projekt Ariadne vor, einen neuartigen XAI-Rahmen, der Strukturelle Kausalmodelle (SCM) und kontrafaktische Logik nutzt, um die kausale Integrität agentenbasierter Entscheidungsfindung zu überprüfen. Im Gegensatz zu bestehenden Interpretationsmethoden, die auf oberflächlicher textueller Ähnlichkeit beruhen, führt Projekt Ariadne harte Interventionen (Do-Kalkül) auf intermediären Schlussfolgerungsknoten durch – systematische Umkehrung von Logik, Negation von Prämissen und Umkehr faktischer Aussagen –, um die kausale Sensitivität (φ) der Endantwort zu messen. Unsere empirische Evaluation modernster Modelle offenbart eine beständige Treue-Lücke. Wir definieren und identifizieren einen weitverbreiteten Fehlermodus, den wir als Kausale Entkopplung bezeichnen, bei dem Agenten eine Verletzungsdichte (ρ) von bis zu 0,77 in faktischen und wissenschaftlichen Domänen aufweisen. In diesen Fällen gelangen Agenten trotz widersprüchlicher interner Logik zu identischen Schlussfolgerungen, was beweist, dass ihre Begründungspfade als "Reasoning Theater" fungieren, während die Entscheidungsfindung von latenten parametrischen Priors gesteuert wird. Unsere Ergebnisse legen nahe, dass aktuelle agentenbasierte Architekturen inhärent anfällig für unzuverlässige Erklärungen sind, und wir schlagen den Ariadne-Score als neuen Benchmark vor, um deklarierte Logik mit Modellhandlungen in Einklang zu bringen.
English
As Large Language Model (LLM) agents are increasingly tasked with high-stakes autonomous decision-making, the transparency of their reasoning processes has become a critical safety concern. While Chain-of-Thought (CoT) prompting allows agents to generate human-readable reasoning traces, it remains unclear whether these traces are faithful generative drivers of the model's output or merely post-hoc rationalizations. We introduce Project Ariadne, a novel XAI framework that utilizes Structural Causal Models (SCMs) and counterfactual logic to audit the causal integrity of agentic reasoning. Unlike existing interpretability methods that rely on surface-level textual similarity, Project Ariadne performs hard interventions (do-calculus) on intermediate reasoning nodes -- systematically inverting logic, negating premises, and reversing factual claims -- to measure the Causal Sensitivity (φ) of the terminal answer. Our empirical evaluation of state-of-the-art models reveals a persistent Faithfulness Gap. We define and detect a widespread failure mode termed Causal Decoupling, where agents exhibit a violation density (ρ) of up to 0.77 in factual and scientific domains. In these instances, agents arrive at identical conclusions despite contradictory internal logic, proving that their reasoning traces function as "Reasoning Theater" while decision-making is governed by latent parametric priors. Our findings suggest that current agentic architectures are inherently prone to unfaithful explanation, and we propose the Ariadne Score as a new benchmark for aligning stated logic with model action.
PDF01January 7, 2026