Дистилляция оценки чувствительности к приватности, согласованной с человеком, из больших языковых моделей
Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models
March 31, 2026
Авторы: Gabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi
cs.AI
Аннотация
Точная оценка конфиденциальности текстовых данных остается ключевой проблемой в задачах сохранения приватности при обработке естественного языка. Недавние исследования показали, что большие языковые модели (БЯМ) могут служить надежными оценщиками конфиденциальности, демонстрируя высокую степень согласованности с человеческими оценками; однако их вычислительная стоимость и непрактичность для обработки чувствительных данных в больших масштабах ограничивают реальное применение. Мы устраняем этот разрыв, дистиллируя возможности оценки конфиденциальности модели Mistral Large 3 (675B) в облегченные модели-энкодеры с всего 150 млн параметров. Используя масштабный набор данных с аннотациями конфиденциальности, охватывающий 10 различных доменов, мы обучаем эффективные классификаторы, которые сохраняют высокую согласованность с человеческими разметками при значительном снижении вычислительных требований. Мы проверяем наш подход на тестовых данных с человеческой разметкой и демонстрируем его практическую полезность в качестве метрики оценки для систем обезличивания.
English
Accurate privacy evaluation of textual data remains a critical challenge in privacy-preserving natural language processing. Recent work has shown that large language models (LLMs) can serve as reliable privacy evaluators, achieving strong agreement with human judgments; however, their computational cost and impracticality for processing sensitive data at scale limit real-world deployment. We address this gap by distilling the privacy assessment capabilities of Mistral Large 3 (675B) into lightweight encoder models with as few as 150M parameters. Leveraging a large-scale dataset of privacy-annotated texts spanning 10 diverse domains, we train efficient classifiers that preserve strong agreement with human annotations while dramatically reducing computational requirements. We validate our approach on human-annotated test data and demonstrate its practical utility as an evaluation metric for de-identification systems.