ChatPaper.aiChatPaper

Distillation de l'évaluation de la sensibilité à la confidentialité alignée sur l'humain à partir des grands modèles de langage

Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models

March 31, 2026
Auteurs: Gabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi
cs.AI

Résumé

L'évaluation précise de la confidentialité des données textuelles reste un défi majeur dans le traitement du langage naturel préservant la vie privée. Des travaux récents ont montré que les grands modèles de langage (LLM) peuvent servir d'évaluateurs fiables de la confidentialité, atteignant un fort accord avec les jugements humains ; cependant, leur coût computationnel et leur impraticabilité pour traiter des données sensibles à grande échelle limitent leur déploiement réel. Nous comblons cette lacune en distillant les capacités d'évaluation de la confidentialité de Mistral Large 3 (675B) dans des modèles encodeurs légers avec seulement 150M de paramètres. En exploitant un jeu de données à grande échelle de textes annotés pour la confidentialité couvrant 10 domaines diversifiés, nous entraînons des classifieurs efficaces qui préservent un fort accord avec les annotations humaines tout en réduisant considérablement les besoins computationnels. Nous validons notre approche sur des données de test annotées par des humains et démontrons son utilité pratique comme métrique d'évaluation pour les systèmes de dé-identification.
English
Accurate privacy evaluation of textual data remains a critical challenge in privacy-preserving natural language processing. Recent work has shown that large language models (LLMs) can serve as reliable privacy evaluators, achieving strong agreement with human judgments; however, their computational cost and impracticality for processing sensitive data at scale limit real-world deployment. We address this gap by distilling the privacy assessment capabilities of Mistral Large 3 (675B) into lightweight encoder models with as few as 150M parameters. Leveraging a large-scale dataset of privacy-annotated texts spanning 10 diverse domains, we train efficient classifiers that preserve strong agreement with human annotations while dramatically reducing computational requirements. We validate our approach on human-annotated test data and demonstrate its practical utility as an evaluation metric for de-identification systems.
PDF31April 2, 2026