ChatPaper.aiChatPaper

Destillierung menschlich ausgerichteter Bewertungen der Privatsphärenempfindlichkeit aus großen Sprachmodellen

Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models

March 31, 2026
Autoren: Gabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi
cs.AI

Zusammenfassung

Eine genaue Bewertung der Privatsphäre in Textdaten bleibt eine kritische Herausforderung im datenschutzbewussten Natural Language Processing. Jüngste Arbeiten haben gezeigt, dass große Sprachmodelle (LLMs) als zuverlässige Bewertungswerkzeuge für Privatsphäre dienen können, wobei sie eine hohe Übereinstimmung mit menschlichen Urteilen erreichen; jedoch begrenzen ihre Rechenkosten und ihre mangelnde Praktikabilität für die Verarbeitung sensibler Daten in großem Maßstab den realen Einsatz. Wir schließen diese Lücke, indem wir die Fähigkeiten zur Privatsphärenbewertung von Mistral Large 3 (675B) in schlanke Encoder-Modelle mit nur 150M Parametern destillieren. Unter Nutzung eines umfangreichen Datensatzes von privacy-annotierten Texten aus 10 verschiedenen Domänen trainieren wir effiziente Klassifikatoren, die eine hohe Übereinstimmung mit menschlichen Annotationen bewahren und gleichzeitig den Rechenaufwand drastisch reduzieren. Wir validieren unseren Ansatz anhand von menschlich annotierten Testdaten und demonstrieren seinen praktischen Nutzen als Bewertungsmetrik für De-Identifikationssysteme.
English
Accurate privacy evaluation of textual data remains a critical challenge in privacy-preserving natural language processing. Recent work has shown that large language models (LLMs) can serve as reliable privacy evaluators, achieving strong agreement with human judgments; however, their computational cost and impracticality for processing sensitive data at scale limit real-world deployment. We address this gap by distilling the privacy assessment capabilities of Mistral Large 3 (675B) into lightweight encoder models with as few as 150M parameters. Leveraging a large-scale dataset of privacy-annotated texts spanning 10 diverse domains, we train efficient classifiers that preserve strong agreement with human annotations while dramatically reducing computational requirements. We validate our approach on human-annotated test data and demonstrate its practical utility as an evaluation metric for de-identification systems.
PDF31April 2, 2026