ChatPaper.aiChatPaper

Distillare una Valutazione della Sensibilità della Privacy Allineata con l'Umano dai Grandi Modelli Linguistici

Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models

March 31, 2026
Autori: Gabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi
cs.AI

Abstract

La valutazione accurata della privacy dei dati testuali rimane una sfida critica nell'elaborazione del linguaggio naturale preservando la riservatezza. Recenti lavori hanno dimostrato che i grandi modelli linguistici (LLM) possono fungere da valutatori affidabili della privacy, raggiungendo un forte accordo con i giudizi umani; tuttavia, il loro costo computazionale e l'impraticabilità per l'elaborazione su larga scala di dati sensibili ne limitano l'adozione reale. Colmiamo questa lacuna distillando le capacità di valutazione della privacy di Mistral Large 3 (675B) in modelli encoder leggeri con appena 150 milioni di parametri. Sfruttando un dataset su larga scala di testi annotati per la privacy che copre 10 domini diversi, addestriamo classificatori efficienti che preservano un forte accordo con le annotazioni umane riducendo drasticamente i requisiti computazionali. Convalidiamo il nostro approccio su dati di test annotati da esseri umani e ne dimostriamo l'utilità pratica come metrica di valutazione per i sistemi di de-identificazione.
English
Accurate privacy evaluation of textual data remains a critical challenge in privacy-preserving natural language processing. Recent work has shown that large language models (LLMs) can serve as reliable privacy evaluators, achieving strong agreement with human judgments; however, their computational cost and impracticality for processing sensitive data at scale limit real-world deployment. We address this gap by distilling the privacy assessment capabilities of Mistral Large 3 (675B) into lightweight encoder models with as few as 150M parameters. Leveraging a large-scale dataset of privacy-annotated texts spanning 10 diverse domains, we train efficient classifiers that preserve strong agreement with human annotations while dramatically reducing computational requirements. We validate our approach on human-annotated test data and demonstrate its practical utility as an evaluation metric for de-identification systems.
PDF31April 2, 2026