ChatPaper.aiChatPaper

Проект "Ариадна": Структурная причинно-следственная система для аудита достоверности агентов на основе больших языковых моделей

Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents

January 5, 2026
Авторы: Sourena Khanzadeh
cs.AI

Аннотация

По мере того как агентам на основе больших языковых моделей (LLM) все чаще поручают принятие автономных решений с высокими ставками, прозрачность их процессов рассуждения становится критически важной проблемой безопасности. Хотя prompting по цепочке мыслей (CoT) позволяет агентам генерировать удобочитаемые трассировки рассуждений, остается неясным, являются ли эти трассы подлинными генеративными драйверами вывода модели или же всего лишь постфактумными рационализациями. Мы представляем Project Ariadne — новую рамку объяснимого ИИ (XAI), которая использует структурные причинно-следственные модели (SCM) и контрафактическую логику для аудита причинной целостности агентских рассуждений. В отличие от существующих методов интерпретируемости, опирающихся на поверхностное текстовое сходство, Project Ariadne выполняет жесткие интервенции (do-исчисление) на промежуточные узлы рассуждений — систематически инвертируя логику, отрицая посылки и опровергая фактологические утверждения — для измерения причинной чувствительности (φ) конечного ответа. Наше эмпирическое оценивание передовых моделей выявляет устойчивый Разрыв Достоверности. Мы определяем и обнаруживаем широко распространенный режим сбоя, названный Причинным Разъединением, при котором агенты демонстрируют плотность нарушений (ρ) до 0.77 в фактологических и научных областях. В этих случаях агенты приходят к идентичным выводам, несмотря на противоречивую внутреннюю логику, что доказывает, что их трассировки рассуждений функционируют как «Театр Рассуждений», в то время как принятие решений управляется латентными параметрическими априорными убеждениями. Наши результаты позволяют предположить, что современные агентские архитектуры изначально склонны к недостоверным объяснениям, и мы предлагаем Оценку Ариадны в качестве нового эталона для согласования заявленной логики с действиями модели.
English
As Large Language Model (LLM) agents are increasingly tasked with high-stakes autonomous decision-making, the transparency of their reasoning processes has become a critical safety concern. While Chain-of-Thought (CoT) prompting allows agents to generate human-readable reasoning traces, it remains unclear whether these traces are faithful generative drivers of the model's output or merely post-hoc rationalizations. We introduce Project Ariadne, a novel XAI framework that utilizes Structural Causal Models (SCMs) and counterfactual logic to audit the causal integrity of agentic reasoning. Unlike existing interpretability methods that rely on surface-level textual similarity, Project Ariadne performs hard interventions (do-calculus) on intermediate reasoning nodes -- systematically inverting logic, negating premises, and reversing factual claims -- to measure the Causal Sensitivity (φ) of the terminal answer. Our empirical evaluation of state-of-the-art models reveals a persistent Faithfulness Gap. We define and detect a widespread failure mode termed Causal Decoupling, where agents exhibit a violation density (ρ) of up to 0.77 in factual and scientific domains. In these instances, agents arrive at identical conclusions despite contradictory internal logic, proving that their reasoning traces function as "Reasoning Theater" while decision-making is governed by latent parametric priors. Our findings suggest that current agentic architectures are inherently prone to unfaithful explanation, and we propose the Ariadne Score as a new benchmark for aligning stated logic with model action.
PDF01January 7, 2026