ChatPaper.aiChatPaper

LIBERTy: Ein kausaler Rahmen für das Benchmarking konzeptbasierter Erklärungen von LLMs mit strukturellen Kontrafaktizitäten

LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals

January 15, 2026
papers.authors: Gilat Toker, Nitay Calderon, Ohad Amosy, Roi Reichart
cs.AI

papers.abstract

Konzeptbasierte Erklärungen quantifizieren, wie hochrangige Konzepte (z.B. Geschlecht oder Berufserfahrung) das Modellverhalten beeinflussen, was für Entscheidungsträger in hochriskanten Bereichen entscheidend ist. Jüngste Arbeiten evaluieren die Vertrauenswürdigkeit solcher Erklärungen, indem sie mit referenziellen Kausaleffekten verglichen werden, die aus kontrafaktischen Szenarien geschätzt werden. In der Praxis stützen sich existierende Benchmarks auf kostspielige, menschlich verfasste Kontrafaktuale, die als unvollkommener Stellvertreter dienen. Um dies zu adressieren, führen wir einen Rahmen zur Konstruktion von Datensätzen mit strukturellen kontrafaktualen Paaren ein: LIBERTy (LLM-basierte interventionelle Benchmark für Erklärbarkeit mit Referenzzielen). LIBERTy basiert auf explizit definierten Strukturellen Kausalen Modellen (SCMs) der Textgenerierung; Interventionen an einem Konzept pflanzen sich durch das SCM fort, bis ein LLM das Kontrafaktuale generiert. Wir stellen drei Datensätze vor (Krankheitserkennung, Lebenslaufscreening und Vorhersage von Gewalt am Arbeitsplatz) zusammen mit einer neuen Evaluationsmetrik, der Ordnungstreue. Damit evaluieren wir eine breite Palette von Methoden über fünf Modelle hinweg und identifizieren erhebliches Verbesserungspotenzial für konzeptbasierte Erklärungen. LIBERTy ermöglicht auch eine systematische Analyse der Modellsensitivität gegenüber Interventionen: Wir stellen fest, dass proprietäre LLMs eine deutlich reduzierte Sensitivität gegenüber demografischen Konzepten aufweisen, wahrscheinlich aufgrund von Nachbearbeitungsmaßnahmen. Insgesamt bietet LIBERTy einen dringend benötigten Benchmark für die Entwicklung vertrauenswürdiger Erklärbarkeitsmethoden.
English
Concept-based explanations quantify how high-level concepts (e.g., gender or experience) influence model behavior, which is crucial for decision-makers in high-stakes domains. Recent work evaluates the faithfulness of such explanations by comparing them to reference causal effects estimated from counterfactuals. In practice, existing benchmarks rely on costly human-written counterfactuals that serve as an imperfect proxy. To address this, we introduce a framework for constructing datasets containing structural counterfactual pairs: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets). LIBERTy is grounded in explicitly defined Structured Causal Models (SCMs) of the text generation, interventions on a concept propagate through the SCM until an LLM generates the counterfactual. We introduce three datasets (disease detection, CV screening, and workplace violence prediction) together with a new evaluation metric, order-faithfulness. Using them, we evaluate a wide range of methods across five models and identify substantial headroom for improving concept-based explanations. LIBERTy also enables systematic analysis of model sensitivity to interventions: we find that proprietary LLMs show markedly reduced sensitivity to demographic concepts, likely due to post-training mitigation. Overall, LIBERTy provides a much-needed benchmark for developing faithful explainability methods.
PDF11January 22, 2026