LIBERTy: Un Marco Causal para la Evaluación Comparativa de Explicaciones Basadas en Conceptos de LLMs mediante Contrafactuales Estructurales
LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals
January 15, 2026
Autores: Gilat Toker, Nitay Calderon, Ohad Amosy, Roi Reichart
cs.AI
Resumen
Las explicaciones basadas en conceptos cuantifican cómo los conceptos de alto nivel (por ejemplo, el género o la experiencia) influyen en el comportamiento del modelo, lo cual es crucial para los responsables de la toma de decisiones en dominios de alto riesgo. Trabajos recientes evalúan la fidelidad de dichas explicaciones comparándolas con efectos causales de referencia estimados a partir de contrafactuales. En la práctica, los puntos de referencia existentes dependen de contrafactuales costosos escritos por humanos que sirven como un proxy imperfecto. Para abordar esto, presentamos un marco para construir conjuntos de datos que contienen pares contrafactuales estructurales: LIBERTy (Punto de Referencia Intervencional Basado en LLM para Explicabilidad con Objetivos de Referencia). LIBERTy se basa en Modelos Causales Estructurales (SCM) explícitamente definidos de la generación de texto; las intervenciones sobre un concepto se propagan a través del SCM hasta que un LLM genera el contrafactual. Introducimos tres conjuntos de datos (detección de enfermedades, cribado de currículos y predicción de violencia en el lugar de trabajo) junto con una nueva métrica de evaluación, la fidelidad de orden. Utilizándolos, evaluamos una amplia gama de métodos en cinco modelos e identificamos un margen de mejora sustancial para las explicaciones basadas en conceptos. LIBERTy también permite un análisis sistemático de la sensibilidad del modelo a las intervenciones: encontramos que los LLM propietarios muestran una sensibilidad notablemente reducida a los conceptos demográficos, probablemente debido a mitigaciones posteriores al entrenamiento. En general, LIBERTy proporciona un punto de referencia muy necesario para desarrollar métodos de explicabilidad fieles.
English
Concept-based explanations quantify how high-level concepts (e.g., gender or experience) influence model behavior, which is crucial for decision-makers in high-stakes domains. Recent work evaluates the faithfulness of such explanations by comparing them to reference causal effects estimated from counterfactuals. In practice, existing benchmarks rely on costly human-written counterfactuals that serve as an imperfect proxy. To address this, we introduce a framework for constructing datasets containing structural counterfactual pairs: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets). LIBERTy is grounded in explicitly defined Structured Causal Models (SCMs) of the text generation, interventions on a concept propagate through the SCM until an LLM generates the counterfactual. We introduce three datasets (disease detection, CV screening, and workplace violence prediction) together with a new evaluation metric, order-faithfulness. Using them, we evaluate a wide range of methods across five models and identify substantial headroom for improving concept-based explanations. LIBERTy also enables systematic analysis of model sensitivity to interventions: we find that proprietary LLMs show markedly reduced sensitivity to demographic concepts, likely due to post-training mitigation. Overall, LIBERTy provides a much-needed benchmark for developing faithful explainability methods.