LIBERTy: 構造的反事実によるLLMの概念ベース説明のベンチマークのための因果的枠組み
LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals
January 15, 2026
著者: Gilat Toker, Nitay Calderon, Ohad Amosy, Roi Reichart
cs.AI
要旨
概念ベース説明法は、高水準の概念(性別や経験など)がモデルの挙動に与える影響を定量化するもので、高リスク領域における意思決定者にとって極めて重要である。近年の研究では、反実仮想から推定された基準因果効果との比較を通じて、こうした説明法の忠実性を評価する。実際には、既存のベンチマークは不完全な代理指標となる、コストの高い人手作成の反実仮想に依存している。この問題に対処するため、我々は構造的反実仮想ペアを含むデータセット構築の枠組み「LIBERTy」(LLM-based Interventional Benchmark for Explainability with Reference Targets)を提案する。LIBERTyは、テキスト生成の明示的に定義された構造的因果モデル(SCM)に基づいており、概念への介入はSCMを伝播した後、LLMによって反実仮想が生成される。我々は3つのデータセット(疾病検出、履歴書選考、職場暴力予測)と新評価指標「順序忠実性」を導入する。これらを用いて、5つのモデルにわたる多様な手法を評価し、概念ベース説明法に大幅な改善余地があることを明らかにする。LIBERTyはまた、介入に対するモデル感応度の体系的分析を可能にする:プロプライエタリLLMは、学習後緩和策の影響により、人口統計的概念への感応度が顕著に低いことが判明した。総合的に、LIBERTyは忠実な説明手法を開発するための待望のベンチマークを提供する。
English
Concept-based explanations quantify how high-level concepts (e.g., gender or experience) influence model behavior, which is crucial for decision-makers in high-stakes domains. Recent work evaluates the faithfulness of such explanations by comparing them to reference causal effects estimated from counterfactuals. In practice, existing benchmarks rely on costly human-written counterfactuals that serve as an imperfect proxy. To address this, we introduce a framework for constructing datasets containing structural counterfactual pairs: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets). LIBERTy is grounded in explicitly defined Structured Causal Models (SCMs) of the text generation, interventions on a concept propagate through the SCM until an LLM generates the counterfactual. We introduce three datasets (disease detection, CV screening, and workplace violence prediction) together with a new evaluation metric, order-faithfulness. Using them, we evaluate a wide range of methods across five models and identify substantial headroom for improving concept-based explanations. LIBERTy also enables systematic analysis of model sensitivity to interventions: we find that proprietary LLMs show markedly reduced sensitivity to demographic concepts, likely due to post-training mitigation. Overall, LIBERTy provides a much-needed benchmark for developing faithful explainability methods.