Distilando a Avaliação de Sensibilidade de Privacidade Alinhada ao Humano a partir de Modelos de Linguagem de Grande Porte
Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models
March 31, 2026
Autores: Gabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi
cs.AI
Resumo
A avaliação precisa da privacidade de dados textuais continua a ser um desafio crítico no processamento de linguagem natural que preserva a privacidade. Trabalhos recentes demonstraram que os grandes modelos de linguagem (LLMs) podem atuar como avaliadores de privacidade confiáveis, alcançando alta concordância com julgamentos humanos; no entanto, o seu custo computacional e a sua impraticabilidade para processar dados sensíveis em larga escala limitam a implantação no mundo real. Nós abordamos esta lacuna destilando as capacidades de avaliação de privacidade do Mistral Large 3 (675B) em modelos *encoder* leves com apenas 150M de parâmetros. Aproveitando um conjunto de dados em larga escala de textos anotados para privacidade abrangendo 10 domínios diversos, treinamos classificadores eficientes que preservam uma forte concordância com as anotações humanas enquanto reduzem drasticamente os requisitos computacionais. Validamos nossa abordagem em dados de teste anotados por humanos e demonstramos a sua utilidade prática como uma métrica de avaliação para sistemas de desidentificação.
English
Accurate privacy evaluation of textual data remains a critical challenge in privacy-preserving natural language processing. Recent work has shown that large language models (LLMs) can serve as reliable privacy evaluators, achieving strong agreement with human judgments; however, their computational cost and impracticality for processing sensitive data at scale limit real-world deployment. We address this gap by distilling the privacy assessment capabilities of Mistral Large 3 (675B) into lightweight encoder models with as few as 150M parameters. Leveraging a large-scale dataset of privacy-annotated texts spanning 10 diverse domains, we train efficient classifiers that preserve strong agreement with human annotations while dramatically reducing computational requirements. We validate our approach on human-annotated test data and demonstrate its practical utility as an evaluation metric for de-identification systems.