プロジェクト・アリアドネ:LLMエージェントの忠実性を監査するための構造的因果フレームワーク
Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents
January 5, 2026
著者: Sourena Khanzadeh
cs.AI
要旨
大規模言語モデル(LLM)エージェントが高リスクな自律的意思決定を担う機会が増えるにつれ、その推論プロセスの透明性は重大な安全性課題となっている。思考連鎖(Chain-of-Thought: CoT)プロンプティングによりエージェントが人間可読な推論痕跡を生成できる一方、これらの痕跡がモデル出力の真の生成要因なのか、単なる事後的合理化なのかは不明瞭である。本研究では、構造的因果モデル(SCM)と反事実論理を用いてエージェント推論の因果的一貫性を検証する新規XAIフレームワーク「プロジェクト・アリアドネ」を提案する。表面的なテキスト類似性に依存する既存の解釈可能性手法とは異なり、本フレームワークは中間推論ノードに対し厳密な介入(do-計算)を実施——論理の体系的逆転、前提の否定、事実主張の反転——することで最終回答の因果的感受性(φ)を測定する。先端モデルを用いた実証評価により、一貫した忠実性ギャップ(Faithfulness Gap)が明らかとなった。我々は「因果的デカップリング」と命名した広範な故障モードを定義・検出し、エージェントが事実及び科学領域で最大0.77の違反密度(ρ)を示すことを確認した。この現象では、エージェントは矛盾する内部論理にも関わらず同一の結論に到達し、推論痕跡が「推理の茶番(Reasoning Theater)」として機能する一方、意思決定は潜在的なパラメトリック事前分布に支配されていることを証明する。知見は、現行のエージェント構造が本質的に不忠実な説明を生じやすいことを示唆しており、表明された論理とモデル行動の整合性を測る新たなベンチマークとしてアリアドネスコアを提案する。
English
As Large Language Model (LLM) agents are increasingly tasked with high-stakes autonomous decision-making, the transparency of their reasoning processes has become a critical safety concern. While Chain-of-Thought (CoT) prompting allows agents to generate human-readable reasoning traces, it remains unclear whether these traces are faithful generative drivers of the model's output or merely post-hoc rationalizations. We introduce Project Ariadne, a novel XAI framework that utilizes Structural Causal Models (SCMs) and counterfactual logic to audit the causal integrity of agentic reasoning. Unlike existing interpretability methods that rely on surface-level textual similarity, Project Ariadne performs hard interventions (do-calculus) on intermediate reasoning nodes -- systematically inverting logic, negating premises, and reversing factual claims -- to measure the Causal Sensitivity (φ) of the terminal answer. Our empirical evaluation of state-of-the-art models reveals a persistent Faithfulness Gap. We define and detect a widespread failure mode termed Causal Decoupling, where agents exhibit a violation density (ρ) of up to 0.77 in factual and scientific domains. In these instances, agents arrive at identical conclusions despite contradictory internal logic, proving that their reasoning traces function as "Reasoning Theater" while decision-making is governed by latent parametric priors. Our findings suggest that current agentic architectures are inherently prone to unfaithful explanation, and we propose the Ariadne Score as a new benchmark for aligning stated logic with model action.