LIBERTy: Un Quadro Causale per la Valutazione Comparativa di Spiegazioni Basate su Concetti per LLM mediante Controfattuali Strutturali

Abstract

Le spiegazioni basate su concetti quantificano come concetti di alto livello (ad esempio, genere o esperienza) influenzano il comportamento del modello, il che è cruciale per i decisori in domini ad alto rischio. Recenti lavori valutano la fedeltà di tali spiegazioni confrontandole con effetti causali di riferimento stimati da controfattuali. Nella pratica, i benchmark esistenti si basano su costosi controfattuali scritti da esseri umani che fungono da proxy imperfetti. Per affrontare questo problema, introduciamo un framework per costruire dataset contenenti coppie controfattuali strutturali: LIBERTy (Benchmark Interventistico basato su LLM per la Spiegabilità con Target di Riferimento). LIBERTy è fondato su Modelli Causali Strutturati (SCM) esplicitamente definiti della generazione del testo: gli interventi su un concetto si propagano attraverso l'SCM finché un LLM genera il controfattuale. Introduciamo tre dataset (rilevazione di malattie, screening di curriculum vitae e previsione di violenza sul posto di lavoro) insieme a una nuova metrica di valutazione, la fedeltà d'ordine. Utilizzandoli, valutiamo un'ampia gamma di metodi su cinque modelli e identifichiamo un margine di miglioramento sostanziale per le spiegazioni basate su concetti. LIBERTy consente anche un'analisi sistematica della sensibilità del modello agli interventi: scopriamo che gli LLM proprietari mostrano una sensibilità notevolmente ridotta ai concetti demografici, probabilmente a causa di mitigazioni post-addestramento. Nel complesso, LIBERTy fornisce un benchmark tanto necessario per sviluppare metodi di spiegabilità fedeli.

English

Concept-based explanations quantify how high-level concepts (e.g., gender or experience) influence model behavior, which is crucial for decision-makers in high-stakes domains. Recent work evaluates the faithfulness of such explanations by comparing them to reference causal effects estimated from counterfactuals. In practice, existing benchmarks rely on costly human-written counterfactuals that serve as an imperfect proxy. To address this, we introduce a framework for constructing datasets containing structural counterfactual pairs: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets). LIBERTy is grounded in explicitly defined Structured Causal Models (SCMs) of the text generation, interventions on a concept propagate through the SCM until an LLM generates the counterfactual. We introduce three datasets (disease detection, CV screening, and workplace violence prediction) together with a new evaluation metric, order-faithfulness. Using them, we evaluate a wide range of methods across five models and identify substantial headroom for improving concept-based explanations. LIBERTy also enables systematic analysis of model sensitivity to interventions: we find that proprietary LLMs show markedly reduced sensitivity to demographic concepts, likely due to post-training mitigation. Overall, LIBERTy provides a much-needed benchmark for developing faithful explainability methods.

LIBERTy: Un Quadro Causale per la Valutazione Comparativa di Spiegazioni Basate su Concetti per LLM mediante Controfattuali Strutturali

LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals

Abstract

Support