LIBERTy: Причинностная структура для сравнительного анализа концептуальных объяснений больших языковых моделей с помощью структурных контрфактов
LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals
January 15, 2026
Авторы: Gilat Toker, Nitay Calderon, Ohad Amosy, Roi Reichart
cs.AI
Аннотация
Объяснения на основе концепций количественно оценивают влияние высокоуровневых понятий (например, пола или опыта) на поведение модели, что крайне важно для лиц, принимающих решения в областях с высокими ставками. В последних работах достоверность таких объяснений оценивается путем их сравнения с референсными причинно-следственными эффектами, оцененными на основе контрфактических данных. На практике существующие бенчмарки полагаются на дорогостоящие контрфактические примеры, написанные человеком, которые служат несовершенным прокси. Чтобы решить эту проблему, мы представляем фреймворк для создания наборов данных, содержащих структурные контрфактические пары: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets). LIBERTy основан на явно определенных Структурных Причинно-Следственных Моделях (СПСМ) генерации текста: вмешательства в концепцию распространяются через СПСМ до тех пор, пока языковая модель не сгенерирует контрфактическое высказывание. Мы представляем три набора данных (выявление заболеваний, скрининг резюме и прогнозирование насилия на рабочем месте) вместе с новой метрикой оценки — порядковой достоверностью (order-faithfulness). Используя их, мы оцениваем широкий спектр методов на пяти моделях и выявляем значительный потенциал для улучшения объяснений на основе концепций. LIBERTy также позволяет проводить систематический анализ чувствительности моделей к вмешательствам: мы обнаружили, что проприетарные языковые модели демонстрируют заметно сниженную чувствительность к демографическим концепциям, вероятно, из-за пост-тренировочной коррекции. В целом, LIBERTy предоставляет столь необходимый бенчмарк для разработки достоверных методов объясняемости.
English
Concept-based explanations quantify how high-level concepts (e.g., gender or experience) influence model behavior, which is crucial for decision-makers in high-stakes domains. Recent work evaluates the faithfulness of such explanations by comparing them to reference causal effects estimated from counterfactuals. In practice, existing benchmarks rely on costly human-written counterfactuals that serve as an imperfect proxy. To address this, we introduce a framework for constructing datasets containing structural counterfactual pairs: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets). LIBERTy is grounded in explicitly defined Structured Causal Models (SCMs) of the text generation, interventions on a concept propagate through the SCM until an LLM generates the counterfactual. We introduce three datasets (disease detection, CV screening, and workplace violence prediction) together with a new evaluation metric, order-faithfulness. Using them, we evaluate a wide range of methods across five models and identify substantial headroom for improving concept-based explanations. LIBERTy also enables systematic analysis of model sensitivity to interventions: we find that proprietary LLMs show markedly reduced sensitivity to demographic concepts, likely due to post-training mitigation. Overall, LIBERTy provides a much-needed benchmark for developing faithful explainability methods.