LIBERTy: Een causaal raamwerk voor het benchmarken van op concepten gebaseerde verklaringen van LLM's met structurele contrafeitelijke scenario's

Samenvatting

Concept-gebaseerde verklaringen kwantificeren hoe hoogwaardige concepten (zoals geslacht of ervaring) het modelgedrag beïnvloeden, wat cruciaal is voor besluitvormers in hoog-risicodomeinen. Recent werk evalueert de betrouwbaarheid van dergelijke verklaringen door ze te vergelijken met referentie causale effecten die geschat zijn vanuit counterfactuals. In de praktijk vertrouwen bestaande benchmarks op kostbare, door mensen geschreven counterfactuals die dienen als een onvolmaakte benadering. Om dit aan te pakken, introduceren we een raamwerk voor het construeren van datasets die structurele counterfactual paren bevatten: LIBERTy (LLM-gebaseerd Interventie Benchmark voor Uitlegbaarheid met Referentiedoelen). LIBERTy is gegrondvest in expliciet gedefinieerde Structurele Causale Modellen (SCM's) van de tekstgeneratie; interventies op een concept planten zich voort door het SCM totdat een LLM de counterfactual genereert. We introduceren drie datasets (ziekte-detectie, CV-screening en voorspelling van geweld op de werkplek) samen met een nieuwe evaluatiemetriek, order-betrouwbaarheid. Hiermee evalueren we een breed scala aan methoden over vijf modellen en identificeren we een aanzienlijke verbeteringsruimte voor concept-gebaseerde verklaringen. LIBERTy maakt ook een systematische analyse mogelijk van de modelgevoeligheid voor interventies: we constateren dat propriëtaire LLM's een aanzienlijk verminderde gevoeligheid voor demografische concepten vertonen, waarschijnlijk als gevolg van post-training mitigatie. Over het geheel genomen biedt LIBERTy een broodnodige benchmark voor het ontwikkelen van betrouwbare uitlegbare methoden.

English

Concept-based explanations quantify how high-level concepts (e.g., gender or experience) influence model behavior, which is crucial for decision-makers in high-stakes domains. Recent work evaluates the faithfulness of such explanations by comparing them to reference causal effects estimated from counterfactuals. In practice, existing benchmarks rely on costly human-written counterfactuals that serve as an imperfect proxy. To address this, we introduce a framework for constructing datasets containing structural counterfactual pairs: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets). LIBERTy is grounded in explicitly defined Structured Causal Models (SCMs) of the text generation, interventions on a concept propagate through the SCM until an LLM generates the counterfactual. We introduce three datasets (disease detection, CV screening, and workplace violence prediction) together with a new evaluation metric, order-faithfulness. Using them, we evaluate a wide range of methods across five models and identify substantial headroom for improving concept-based explanations. LIBERTy also enables systematic analysis of model sensitivity to interventions: we find that proprietary LLMs show markedly reduced sensitivity to demographic concepts, likely due to post-training mitigation. Overall, LIBERTy provides a much-needed benchmark for developing faithful explainability methods.

LIBERTy: Een causaal raamwerk voor het benchmarken van op concepten gebaseerde verklaringen van LLM's met structurele contrafeitelijke scenario's

LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals

Samenvatting

Support