Wanneer Uitlegbaarheid Privacy Ontmoet: Een Onderzoek op het Snijvlak van Post-hoc Uitlegbaarheid en Differentiële Privacy in de Context van Natuurlijke Taalverwerking
When Explainability Meets Privacy: An Investigation at the Intersection of Post-hoc Explainability and Differential Privacy in the Context of Natural Language Processing
August 14, 2025
Auteurs: Mahdi Dhaini, Stephen Meisenbacher, Ege Erdogan, Florian Matthes, Gjergji Kasneci
cs.AI
Samenvatting
In het onderzoek naar betrouwbare Natural Language Processing (NLP) zijn een aantal belangrijke onderzoeksgebieden naar voren gekomen, waaronder uitlegbaarheid en privacy. Hoewel de onderzoeksinteresse in zowel uitlegbare als privacybeschermende NLP de afgelopen jaren aanzienlijk is toegenomen, ontbreekt het nog steeds aan onderzoek op het snijvlak van deze twee gebieden. Dit laat een aanzienlijke leemte in het begrip van of het bereiken van zowel uitlegbaarheid als privacy mogelijk is, of dat deze twee met elkaar in conflict zijn. In dit werk voeren we een empirisch onderzoek uit naar de afweging tussen privacy en uitlegbaarheid in de context van NLP, geleid door de populaire overkoepelende methoden van Differentiële Privacy (DP) en Post-hoc Uitlegbaarheid. Onze bevindingen omvatten een inzicht in de ingewikkelde relatie tussen privacy en uitlegbaarheid, die wordt gevormd door een aantal factoren, waaronder de aard van de downstream-taak en de keuze van de tekstprivatiserings- en uitlegbaarheidsmethode. Hierin benadrukken we het potentieel voor privacy en uitlegbaarheid om naast elkaar te bestaan, en vatten we onze bevindingen samen in een verzameling praktische aanbevelingen voor toekomstig onderzoek op dit belangrijke snijvlak.
English
In the study of trustworthy Natural Language Processing (NLP), a number of
important research fields have emerged, including that of
explainability and privacy. While research interest in both
explainable and privacy-preserving NLP has increased considerably in recent
years, there remains a lack of investigation at the intersection of the two.
This leaves a considerable gap in understanding of whether achieving
both explainability and privacy is possible, or whether the two are at
odds with each other. In this work, we conduct an empirical investigation into
the privacy-explainability trade-off in the context of NLP, guided by the
popular overarching methods of Differential Privacy (DP) and Post-hoc
Explainability. Our findings include a view into the intricate relationship
between privacy and explainability, which is formed by a number of factors,
including the nature of the downstream task and choice of the text
privatization and explainability method. In this, we highlight the potential
for privacy and explainability to co-exist, and we summarize our findings in a
collection of practical recommendations for future work at this important
intersection.