ChatPaper.aiChatPaper

LIBERTy: Un Quadro Causale per la Valutazione Comparativa di Spiegazioni Basate su Concetti per LLM mediante Controfattuali Strutturali

LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals

January 15, 2026
Autori: Gilat Toker, Nitay Calderon, Ohad Amosy, Roi Reichart
cs.AI

Abstract

Le spiegazioni basate su concetti quantificano come concetti di alto livello (ad esempio, genere o esperienza) influenzano il comportamento del modello, il che è cruciale per i decisori in domini ad alto rischio. Recenti lavori valutano la fedeltà di tali spiegazioni confrontandole con effetti causali di riferimento stimati da controfattuali. Nella pratica, i benchmark esistenti si basano su costosi controfattuali scritti da esseri umani che fungono da proxy imperfetti. Per affrontare questo problema, introduciamo un framework per costruire dataset contenenti coppie controfattuali strutturali: LIBERTy (Benchmark Interventistico basato su LLM per la Spiegabilità con Target di Riferimento). LIBERTy è fondato su Modelli Causali Strutturati (SCM) esplicitamente definiti della generazione del testo: gli interventi su un concetto si propagano attraverso l'SCM finché un LLM genera il controfattuale. Introduciamo tre dataset (rilevazione di malattie, screening di curriculum vitae e previsione di violenza sul posto di lavoro) insieme a una nuova metrica di valutazione, la fedeltà d'ordine. Utilizzandoli, valutiamo un'ampia gamma di metodi su cinque modelli e identifichiamo un margine di miglioramento sostanziale per le spiegazioni basate su concetti. LIBERTy consente anche un'analisi sistematica della sensibilità del modello agli interventi: scopriamo che gli LLM proprietari mostrano una sensibilità notevolmente ridotta ai concetti demografici, probabilmente a causa di mitigazioni post-addestramento. Nel complesso, LIBERTy fornisce un benchmark tanto necessario per sviluppare metodi di spiegabilità fedeli.
English
Concept-based explanations quantify how high-level concepts (e.g., gender or experience) influence model behavior, which is crucial for decision-makers in high-stakes domains. Recent work evaluates the faithfulness of such explanations by comparing them to reference causal effects estimated from counterfactuals. In practice, existing benchmarks rely on costly human-written counterfactuals that serve as an imperfect proxy. To address this, we introduce a framework for constructing datasets containing structural counterfactual pairs: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets). LIBERTy is grounded in explicitly defined Structured Causal Models (SCMs) of the text generation, interventions on a concept propagate through the SCM until an LLM generates the counterfactual. We introduce three datasets (disease detection, CV screening, and workplace violence prediction) together with a new evaluation metric, order-faithfulness. Using them, we evaluate a wide range of methods across five models and identify substantial headroom for improving concept-based explanations. LIBERTy also enables systematic analysis of model sensitivity to interventions: we find that proprietary LLMs show markedly reduced sensitivity to demographic concepts, likely due to post-training mitigation. Overall, LIBERTy provides a much-needed benchmark for developing faithful explainability methods.
PDF182March 6, 2026