LIBERTy: 구조적 반사실을 활용한 LLM 개념 기반 설명 평가를 위한 인과적 프레임워크
LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals
January 15, 2026
저자: Gilat Toker, Nitay Calderon, Ohad Amosy, Roi Reichart
cs.AI
초록
개념 기반 설명은 고위준 개념(예: 성별 또는 경력)이 모델 행동에 미치는 영향을 정량화하며, 이는 고위험 분야의 의사 결정자에게 중요합니다. 최근 연구는 이러한 설명을 반사실적 데이터로 추정된 기준 인과 효과와 비교하여 설명의 신뢰도를 평가합니다. 실제로 기존 벤치마크는 불완전한 대용물 역할을 하는 비용이 많이 드는 인간 작성 반사실적 데이터에 의존합니다. 이를 해결하기 위해 우리는 구조적 반사실적 쌍을 포함하는 데이터셋 구축 프레임워크인 LIBERTy(LLM 기반 참조 대상 설명 가능성 평가 기준)를 소개합니다. LIBERTy는 명시적으로 정의된 텍스트 생성 구조적 인과 모델(SCM)에 기반하여, 개념에 대한 개입이 SCM을 통해 전파된 후 LLM이 반사실적 데이터를 생성합니다. 우리는 세 가지 데이터셋(질병 감지, 이력서 스크리닝, 직장 내 폭력 예측)과 새로운 평가 지표인 순서 신뢰도를 제안합니다. 이를 활용하여 다섯 가지 모델에 걸쳐 다양한 방법을 평가하고 개념 기반 설명의 개선을 위한 상당한 잠재력을 확인했습니다. LIBERTy는 또한 개입에 대한 모델 민감도의 체계적 분석을 가능하게 합니다: 우리는 사후 학습 완화로 인해 상용 LLM이 인구통계학적 개념에 대해 현저히 낮은 민감도를 보인다는 것을 발견했습니다. 전반적으로 LIBERTy는 신뢰할 수 있는 설명 가능성 방법 개발을 위해 절실히 필요한 벤치마크를 제공합니다.
English
Concept-based explanations quantify how high-level concepts (e.g., gender or experience) influence model behavior, which is crucial for decision-makers in high-stakes domains. Recent work evaluates the faithfulness of such explanations by comparing them to reference causal effects estimated from counterfactuals. In practice, existing benchmarks rely on costly human-written counterfactuals that serve as an imperfect proxy. To address this, we introduce a framework for constructing datasets containing structural counterfactual pairs: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets). LIBERTy is grounded in explicitly defined Structured Causal Models (SCMs) of the text generation, interventions on a concept propagate through the SCM until an LLM generates the counterfactual. We introduce three datasets (disease detection, CV screening, and workplace violence prediction) together with a new evaluation metric, order-faithfulness. Using them, we evaluate a wide range of methods across five models and identify substantial headroom for improving concept-based explanations. LIBERTy also enables systematic analysis of model sensitivity to interventions: we find that proprietary LLMs show markedly reduced sensitivity to demographic concepts, likely due to post-training mitigation. Overall, LIBERTy provides a much-needed benchmark for developing faithful explainability methods.