ChatPaper.aiChatPaper

프로젝트 아리아드네: LLM 에이전트의 정확성 감사를 위한 구조적 인과 관계 프레임워크

Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents

January 5, 2026
저자: Sourena Khanzadeh
cs.AI

초록

대규모 언어 모델(LLM) 에이전트가 고위험 자율 의사결임 임무를 점점 더 많이 수행함에 따라, 그들의 추론 과정에 대한 투명성은 중요한 안전 문제로 대두되고 있습니다. 사고 연쇄(Chain-of-Thought, CoT) 프롬프팅은 에이전트가 인간이 읽을 수 있는 추론 흔적을 생성하게 하지만, 이러한 흔적이 모델 출력의 충실한 생성 동인인지 아니면 단순히 사후 합리화에 불과한지는 여전히 불분명합니다. 본 연구는 구조적 인과 모델(Structural Causal Models, SCMs)과 반사실적 논리를 활용하여 에이전트 추론의 인과적 무결성을 감사하는 새로운 XAI 프레임워크인 프로젝트 아리아드네(Project Ariadne)를 소개합니다. 표면적 텍스트 유사성에 의존하는 기존의 해석 가능성 방법론과 달리, 프로젝트 아리아드네는 중간 추론 노드에 대한 경성 개입(do-calculus)을 수행합니다. 즉, 논리를 체계적으로 반전시키고, 전제를 부정하며, 사실 주장을 뒤집어 최종 답변의 인과적 민감도(Causal Sensitivity, φ)를 측정합니다. 최첨단 모델에 대한 우리의 실증적 평가는 지속적인 충실도 격차(Faithfulness Gap)를 보여줍니다. 우리는 인과적 분리(Causal Decoupling)라고 명명한 광범위한 오류 모드를 정의하고 탐지했으며, 에이전트는 사실 및 과학 영역에서 최대 0.77의 위반 밀도(violation density, ρ)를 나타냈습니다. 이러한 경우 에이전트는 상반된 내부 논리에도 불구하고 동일한 결론에 도달하는데, 이는 그들의 추론 흔적이 "추론 쇼(Reasoning Theater)"로 기능하는 반면 의사결정은 잠재적인 매개변수 사전 분포(latent parametric priors)에 의해 지배된다는 것을 증명합니다. 우리의 연구 결과는 현재의 에이전트 아키텍처가 본질적으로 불충실한 설명에 취약함을 시사하며, 우리는 명시된 논리와 모델 행동을 일치시키기 위한 새로운 벤치마크로 아리아드네 점수(Ariadne Score)를 제안합니다.
English
As Large Language Model (LLM) agents are increasingly tasked with high-stakes autonomous decision-making, the transparency of their reasoning processes has become a critical safety concern. While Chain-of-Thought (CoT) prompting allows agents to generate human-readable reasoning traces, it remains unclear whether these traces are faithful generative drivers of the model's output or merely post-hoc rationalizations. We introduce Project Ariadne, a novel XAI framework that utilizes Structural Causal Models (SCMs) and counterfactual logic to audit the causal integrity of agentic reasoning. Unlike existing interpretability methods that rely on surface-level textual similarity, Project Ariadne performs hard interventions (do-calculus) on intermediate reasoning nodes -- systematically inverting logic, negating premises, and reversing factual claims -- to measure the Causal Sensitivity (φ) of the terminal answer. Our empirical evaluation of state-of-the-art models reveals a persistent Faithfulness Gap. We define and detect a widespread failure mode termed Causal Decoupling, where agents exhibit a violation density (ρ) of up to 0.77 in factual and scientific domains. In these instances, agents arrive at identical conclusions despite contradictory internal logic, proving that their reasoning traces function as "Reasoning Theater" while decision-making is governed by latent parametric priors. Our findings suggest that current agentic architectures are inherently prone to unfaithful explanation, and we propose the Ariadne Score as a new benchmark for aligning stated logic with model action.
PDF01January 7, 2026