Quando la spiegabilità incontra la privacy: un'indagine all'intersezione tra spiegabilità post-hoc e privacy differenziale nel contesto dell'elaborazione del linguaggio naturale
When Explainability Meets Privacy: An Investigation at the Intersection of Post-hoc Explainability and Differential Privacy in the Context of Natural Language Processing
August 14, 2025
Autori: Mahdi Dhaini, Stephen Meisenbacher, Ege Erdogan, Florian Matthes, Gjergji Kasneci
cs.AI
Abstract
Nello studio dell'elaborazione del linguaggio naturale (NLP) affidabile, sono emersi diversi importanti campi di ricerca, tra cui quelli della spiegabilità e della privacy. Sebbene l'interesse della ricerca sia per l'NLP spiegabile che per quello che preserva la privacy sia aumentato considerevolmente negli ultimi anni, manca ancora un'indagine all'intersezione dei due. Ciò lascia un notevole vuoto nella comprensione del fatto che sia possibile raggiungere sia la spiegabilità che la privacy, o se le due siano in contrasto tra loro. In questo lavoro, conduciamo un'indagine empirica sul compromesso tra privacy e spiegabilità nel contesto dell'NLP, guidati dai popolari metodi generali della Privacy Differenziale (DP) e della Spiegabilità Post-hoc. Le nostre scoperte includono una visione della complessa relazione tra privacy e spiegabilità, che è influenzata da numerosi fattori, tra cui la natura del task downstream e la scelta del metodo di privatizzazione del testo e di spiegabilità. In questo, evidenziamo il potenziale per la coesistenza di privacy e spiegabilità, e riassumiamo le nostre scoperte in una raccolta di raccomandazioni pratiche per futuri lavori in questa importante intersezione.
English
In the study of trustworthy Natural Language Processing (NLP), a number of
important research fields have emerged, including that of
explainability and privacy. While research interest in both
explainable and privacy-preserving NLP has increased considerably in recent
years, there remains a lack of investigation at the intersection of the two.
This leaves a considerable gap in understanding of whether achieving
both explainability and privacy is possible, or whether the two are at
odds with each other. In this work, we conduct an empirical investigation into
the privacy-explainability trade-off in the context of NLP, guided by the
popular overarching methods of Differential Privacy (DP) and Post-hoc
Explainability. Our findings include a view into the intricate relationship
between privacy and explainability, which is formed by a number of factors,
including the nature of the downstream task and choice of the text
privatization and explainability method. In this, we highlight the potential
for privacy and explainability to co-exist, and we summarize our findings in a
collection of practical recommendations for future work at this important
intersection.