ChatPaper.aiChatPaper

Восстановление после применения методов защиты конфиденциальности с использованием масок в больших языковых моделях

Recovering from Privacy-Preserving Masking with Large Language Models

September 12, 2023
Авторы: Arpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang, Zeeshan Ahmed, Ozlem Kalinli
cs.AI

Аннотация

Адаптация моделей имеет решающее значение для устранения расхождений между прокси-данными, используемыми для обучения, и реальными данными пользователей. Для эффективной адаптации текстовые данные пользователей обычно хранятся на серверах или их локальных устройствах, где модели обработки естественного языка (NLP) могут быть напрямую обучены на таких данных из целевой области. Однако это может вызывать проблемы конфиденциальности и безопасности из-за дополнительных рисков раскрытия информации пользователей злоумышленникам. В последнее время исследуется замена идентифицирующей информации в текстовых данных на универсальные маркеры. В данной работе мы используем большие языковые модели (LLM) для предложения замен замаскированных токенов и оцениваем их эффективность на задачах языкового моделирования. В частности, мы предлагаем несколько подходов, основанных на предварительно обученных и дообученных LLM, и проводим эмпирические исследования на различных наборах данных для сравнения этих методов. Результаты экспериментов показывают, что модели, обученные на корпусах с обфускацией, способны достичь сопоставимой производительности с моделями, обученными на исходных данных без маскирования токенов для защиты конфиденциальности.
English
Model adaptation is crucial to handle the discrepancy between proxy training data and actual users data received. To effectively perform adaptation, textual data of users is typically stored on servers or their local devices, where downstream natural language processing (NLP) models can be directly trained using such in-domain data. However, this might raise privacy and security concerns due to the extra risks of exposing user information to adversaries. Replacing identifying information in textual data with a generic marker has been recently explored. In this work, we leverage large language models (LLMs) to suggest substitutes of masked tokens and have their effectiveness evaluated on downstream language modeling tasks. Specifically, we propose multiple pre-trained and fine-tuned LLM-based approaches and perform empirical studies on various datasets for the comparison of these methods. Experimental results show that models trained on the obfuscation corpora are able to achieve comparable performance with the ones trained on the original data without privacy-preserving token masking.
PDF50December 15, 2024