Proyecto Ariadna: Un Marco de Causalidad Estructural para Auditar la Fidelidad en Agentes de Grandes Modelos de Lenguaje
Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents
January 5, 2026
Autores: Sourena Khanzadeh
cs.AI
Resumen
A medida que los agentes de modelos de lenguaje grande (LLM) asumen cada vez más la toma de decisiones autónomas de alto riesgo, la transparencia de sus procesos de razonamiento se ha convertido en una preocupación crítica de seguridad. Si bien el prompting de Cadena de Pensamiento (CoT) permite a los agentes generar trazas de razonamiento legibles para humanos, no está claro si estas trazas son impulsores generativos fieles de la salida del modelo o simplemente racionalizaciones *post-hoc*. Presentamos el Proyecto Ariadna, un novedoso marco de XAI que utiliza Modelos Causales Estructurales (SCM) y lógica contrafáctica para auditar la integridad causal del razonamiento agéntico. A diferencia de los métodos de interpretabilidad existentes que se basan en la similitud textual superficial, el Proyecto Ariadna realiza intervenciones duras (*do-calculus*) en los nodos intermedios de razonamiento —invirtiendo sistemáticamente la lógica, negando premisas y revirtiendo afirmaciones factuales— para medir la Sensibilidad Causal (φ) de la respuesta final. Nuestra evaluación empírica de modelos de última generación revela una Brecha de Fidelidad persistente. Definimos y detectamos un modo de fallo generalizado denominado Desacoplamiento Causal, donde los agentes exhiben una densidad de violación (ρ) de hasta 0.77 en dominios factuales y científicos. En estos casos, los agentes llegan a conclusiones idénticas a pesar de una lógica interna contradictoria, lo que demuestra que sus trazas de razonamiento funcionan como un "Teatro del Razonamiento" mientras que la toma de decisiones está gobernada por *priors* paramétricos latentes. Nuestros hallazgos sugieren que las arquitecturas agénticas actuales son inherentemente propensas a explicaciones infieles, y proponemos la Puntuación Ariadna como un nuevo punto de referencia para alinear la lógica declarada con la acción del modelo.
English
As Large Language Model (LLM) agents are increasingly tasked with high-stakes autonomous decision-making, the transparency of their reasoning processes has become a critical safety concern. While Chain-of-Thought (CoT) prompting allows agents to generate human-readable reasoning traces, it remains unclear whether these traces are faithful generative drivers of the model's output or merely post-hoc rationalizations. We introduce Project Ariadne, a novel XAI framework that utilizes Structural Causal Models (SCMs) and counterfactual logic to audit the causal integrity of agentic reasoning. Unlike existing interpretability methods that rely on surface-level textual similarity, Project Ariadne performs hard interventions (do-calculus) on intermediate reasoning nodes -- systematically inverting logic, negating premises, and reversing factual claims -- to measure the Causal Sensitivity (φ) of the terminal answer. Our empirical evaluation of state-of-the-art models reveals a persistent Faithfulness Gap. We define and detect a widespread failure mode termed Causal Decoupling, where agents exhibit a violation density (ρ) of up to 0.77 in factual and scientific domains. In these instances, agents arrive at identical conclusions despite contradictory internal logic, proving that their reasoning traces function as "Reasoning Theater" while decision-making is governed by latent parametric priors. Our findings suggest that current agentic architectures are inherently prone to unfaithful explanation, and we propose the Ariadne Score as a new benchmark for aligning stated logic with model action.