ChatPaper.aiChatPaper

Distilación de Evaluación de Sensibilidad de Privacidad Alineada con Humanos a partir de Modelos de Lenguaje a Gran Escala

Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models

March 31, 2026
Autores: Gabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi
cs.AI

Resumen

La evaluación precisa de la privacidad en datos textuales sigue siendo un desafío crítico en el procesamiento del lenguaje natural que preserva la privacidad. Trabajos recientes han demostrado que los modelos de lenguaje grandes (LLMs) pueden funcionar como evaluadores confiables de privacidad, logrando una alta concordancia con los juicios humanos; sin embargo, su costo computacional y la impracticabilidad para procesar datos sensibles a gran escala limitan su implementación en escenarios reales. Abordamos esta brecha destilando las capacidades de evaluación de privacidad de Mistral Large 3 (675B) en modelos codificadores livianos con tan solo 150M de parámetros. Utilizando un conjunto de datos a gran escala de textos anotados en privacidad que abarca 10 dominios diversos, entrenamos clasificadores eficientes que preservan una alta concordancia con las anotaciones humanas mientras reducen drásticamente los requisitos computacionales. Validamos nuestro enfoque en datos de prueba anotados por humanos y demostramos su utilidad práctica como métrica de evaluación para sistemas de anonimización.
English
Accurate privacy evaluation of textual data remains a critical challenge in privacy-preserving natural language processing. Recent work has shown that large language models (LLMs) can serve as reliable privacy evaluators, achieving strong agreement with human judgments; however, their computational cost and impracticality for processing sensitive data at scale limit real-world deployment. We address this gap by distilling the privacy assessment capabilities of Mistral Large 3 (675B) into lightweight encoder models with as few as 150M parameters. Leveraging a large-scale dataset of privacy-annotated texts spanning 10 diverse domains, we train efficient classifiers that preserve strong agreement with human annotations while dramatically reducing computational requirements. We validate our approach on human-annotated test data and demonstrate its practical utility as an evaluation metric for de-identification systems.
PDF31April 2, 2026