ChatPaper.aiChatPaper

Projet Ariadne : Un cadre causal structurel pour l'audit de la fidélité dans les agents LLM

Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents

January 5, 2026
papers.authors: Sourena Khanzadeh
cs.AI

papers.abstract

Alors que les agents de modèles de langage de grande taille (LLM) sont de plus en plus chargés de prendre des décisions autonomes à enjeux élevés, la transparence de leurs processus de raisonnement est devenue un enjeu de sécurité critique. Bien que l'incitation par Chaîne de Pensée (CoT) permette aux agents de générer des traces de raisonnement lisibles par un humain, il n'est pas clair si ces traces sont des moteurs génératifs fidèles de la sortie du modèle ou simplement des rationalisations a posteriori. Nous présentons le Projet Ariadne, un nouveau cadre d'IA explicable (XAI) qui utilise des Modèles Causaux Structurels (SCM) et une logique contrefactuelle pour auditer l'intégrité causale du raisonnement agentique. Contrairement aux méthodes d'interprétabilité existantes qui reposent sur la similarité textuelle de surface, le Projet Ariadne effectue des interventions fortes (do-calcul) sur les nœuds de raisonnement intermédiaires – en inversant systématiquement la logique, en niant les prémisses et en renversant les affirmations factuelles – pour mesurer la Sensibilité Causale (φ) de la réponse finale. Notre évaluation empirique des modèles de pointe révèle un Écart de Fidélité persistant. Nous définissons et détectons un mode de défaillance répandu, appelé Découplage Causal, où les agents présentent une densité de violation (ρ) allant jusqu'à 0,77 dans les domaines factuels et scientifiques. Dans ces cas, les agents parviennent à des conclusions identiques malgré une logique interne contradictoire, prouvant que leurs traces de raisonnement fonctionnent comme un « Théâtre du Raisonnement » tandis que la prise de décision est gouvernée par des prérequis paramétriques latents. Nos résultats suggèrent que les architectures agentiques actuelles sont intrinsèquement sujettes à des explications non fidèles, et nous proposons le Score Ariadne comme nouveau benchmark pour aligner la logique énoncée avec l'action du modèle.
English
As Large Language Model (LLM) agents are increasingly tasked with high-stakes autonomous decision-making, the transparency of their reasoning processes has become a critical safety concern. While Chain-of-Thought (CoT) prompting allows agents to generate human-readable reasoning traces, it remains unclear whether these traces are faithful generative drivers of the model's output or merely post-hoc rationalizations. We introduce Project Ariadne, a novel XAI framework that utilizes Structural Causal Models (SCMs) and counterfactual logic to audit the causal integrity of agentic reasoning. Unlike existing interpretability methods that rely on surface-level textual similarity, Project Ariadne performs hard interventions (do-calculus) on intermediate reasoning nodes -- systematically inverting logic, negating premises, and reversing factual claims -- to measure the Causal Sensitivity (φ) of the terminal answer. Our empirical evaluation of state-of-the-art models reveals a persistent Faithfulness Gap. We define and detect a widespread failure mode termed Causal Decoupling, where agents exhibit a violation density (ρ) of up to 0.77 in factual and scientific domains. In these instances, agents arrive at identical conclusions despite contradictory internal logic, proving that their reasoning traces function as "Reasoning Theater" while decision-making is governed by latent parametric priors. Our findings suggest that current agentic architectures are inherently prone to unfaithful explanation, and we propose the Ariadne Score as a new benchmark for aligning stated logic with model action.
PDF01January 7, 2026