LIBERTy : Un cadre causal pour l'évaluation comparative des explications par concepts des LLM à l'aide de contrefactuels structurels
LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals
January 15, 2026
papers.authors: Gilat Toker, Nitay Calderon, Ohad Amosy, Roi Reichart
cs.AI
papers.abstract
Les explications basées sur les concepts quantifient comment des concepts de haut niveau (par exemple, le genre ou l'expérience) influencent le comportement des modèles, ce qui est crucial pour les décideurs dans des domaines à enjeux élevés. Des travaux récents évaluent la fidélité de ces explications en les comparant à des effets causaux de référence estimés à partir de contrefactuels. En pratique, les référentiels existants reposent sur des contrefactuels rédigés par des humains, coûteux et servant de proxy imparfait. Pour résoudre ce problème, nous présentons un cadre pour construire des ensembles de données contenant des paires contrefactuelles structurelles : LIBERTy (Benchmark interventionnel basé sur LLM pour l'explicabilité avec cibles de référence). LIBERTy s'appuie sur des Modèles Causaux Structurels (SCM) explicitement définis de la génération de texte ; les interventions sur un concept se propagent à travers le SCM jusqu'à ce qu'un LLM génère le contrefactuel. Nous présentons trois ensembles de données (détection de maladies, dépistage sur CV et prédiction de la violence au travail) ainsi qu'une nouvelle métrique d'évaluation, la fidélité à l'ordre. En les utilisant, nous évaluons un large éventail de méthodes sur cinq modèles et identifions une marge d'amélioration substantielle pour les explications basées sur les concepts. LIBERTy permet également une analyse systématique de la sensibilité des modèles aux interventions : nous constatons que les LLM propriétaires montrent une sensibilité nettement réduite aux concepts démographiques, probablement en raison de mesures d'atténuation post-entraînement. Globalement, LIBERTy fournit un référentiel très nécessaire pour développer des méthodes d'explicabilité fidèles.
English
Concept-based explanations quantify how high-level concepts (e.g., gender or experience) influence model behavior, which is crucial for decision-makers in high-stakes domains. Recent work evaluates the faithfulness of such explanations by comparing them to reference causal effects estimated from counterfactuals. In practice, existing benchmarks rely on costly human-written counterfactuals that serve as an imperfect proxy. To address this, we introduce a framework for constructing datasets containing structural counterfactual pairs: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets). LIBERTy is grounded in explicitly defined Structured Causal Models (SCMs) of the text generation, interventions on a concept propagate through the SCM until an LLM generates the counterfactual. We introduce three datasets (disease detection, CV screening, and workplace violence prediction) together with a new evaluation metric, order-faithfulness. Using them, we evaluate a wide range of methods across five models and identify substantial headroom for improving concept-based explanations. LIBERTy also enables systematic analysis of model sensitivity to interventions: we find that proprietary LLMs show markedly reduced sensitivity to demographic concepts, likely due to post-training mitigation. Overall, LIBERTy provides a much-needed benchmark for developing faithful explainability methods.