Distillatie van mens-georiënteerde privacygevoeligheidsbeoordeling uit grote taalmodellen
Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models
March 31, 2026
Auteurs: Gabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi
cs.AI
Samenvatting
Nauwkeurige privacy-evaluatie van tekstuele gegevens blijft een kritieke uitdaging in privacy-bewarende natuurlijke-taalbewerking. Recent onderzoek heeft aangetoond dat grote taalmodel(len) (LLM's) kunnen fungeren als betrouwbare privacy-evaluatoren, waarbij ze een sterke overeenkomst met menselijke oordelen bereiken; hun rekenkundige kosten en onpraktische karakter voor het verwerken van gevoelige gegevens op grote schaal beperken echter de inzet in de praktijk. Wij dichten deze kloof door de privacybeoordelingscapaciteiten van Mistral Large 3 (675B) te distilleren in lichtgewicht encodermodellen met slechts 150M parameters. Door gebruik te maken van een grootschalige dataset met privacy-geannoteerde teksten uit 10 diverse domeinen, trainen we efficiënte classificatoren die een sterke overeenkomst met menselijke annotaties behouden terwijl de rekenvereisten aanzienlijk worden verminderd. We valideren onze aanpak op door mensen geannoteerde testgegevens en demonstreren de praktische bruikbaarheid ervan als evaluatiemetriek voor deïdentificatiesystemen.
English
Accurate privacy evaluation of textual data remains a critical challenge in privacy-preserving natural language processing. Recent work has shown that large language models (LLMs) can serve as reliable privacy evaluators, achieving strong agreement with human judgments; however, their computational cost and impracticality for processing sensitive data at scale limit real-world deployment. We address this gap by distilling the privacy assessment capabilities of Mistral Large 3 (675B) into lightweight encoder models with as few as 150M parameters. Leveraging a large-scale dataset of privacy-annotated texts spanning 10 diverse domains, we train efficient classifiers that preserve strong agreement with human annotations while dramatically reducing computational requirements. We validate our approach on human-annotated test data and demonstrate its practical utility as an evaluation metric for de-identification systems.