PRvL: Оценка возможностей и рисков больших языковых моделей для редактирования персональных данных
PRvL: Quantifying the Capabilities and Risks of Large Language Models for PII Redaction
August 7, 2025
Авторы: Leon Garza, Anantaa Kotal, Aritran Piplai, Lavanya Elluri, Prajit Das, Aman Chadha
cs.AI
Аннотация
Редактирование личной идентифицируемой информации (PII) из неструктурированного текста имеет критическое значение для обеспечения конфиденциальности данных в регулируемых областях. Хотя ранние подходы основывались на правилах и моделях распознавания именованных сущностей (NER), специфичных для конкретных доменов, эти методы не способны обобщать данные в различных форматах и контекстах. Последние достижения в области больших языковых моделей (LLM) предлагают перспективную альтернативу, однако влияние архитектурных решений и стратегий обучения на эффективность редактирования остается недостаточно изученным. LLM продемонстрировали высокую производительность в задачах, требующих контекстного понимания языка, включая редактирование PII в свободном тексте. Предыдущие исследования показывают, что при соответствующей адаптации LLM могут стать эффективными инструментами для контекстного обеспечения конфиденциальности. Тем не менее, последствия архитектурных и обучающих решений для редактирования PII остаются недостаточно исследованными. В данной работе мы представляем всесторонний анализ LLM как систем для редактирования PII с сохранением конфиденциальности. Мы оцениваем различные архитектуры LLM и стратегии обучения на предмет их эффективности в редактировании PII. Наш анализ измеряет производительность редактирования, сохранение семантики и утечку PII, а также сравнивает эти результаты с задержкой и вычислительными затратами. Результаты предоставляют практические рекомендации по настройке LLM-редакторов, которые являются точными, эффективными и учитывающими конфиденциальность. Для обеспечения воспроизводимости и практического внедрения мы выпускаем PRvL — открытый набор тонко настроенных моделей и инструментов оценки для универсального редактирования PII. PRvL полностью построен на открытых LLM и поддерживает несколько режимов вывода для гибкости и соответствия требованиям. Он разработан для легкой адаптации к различным доменам и полной функциональности в безопасных, самостоятельно управляемых средах. Это позволяет владельцам данных выполнять редактирование без необходимости полагаться на сторонние сервисы или раскрывать конфиденциальную информацию за пределами собственной инфраструктуры.
English
Redacting Personally Identifiable Information (PII) from unstructured text is
critical for ensuring data privacy in regulated domains. While earlier
approaches have relied on rule-based systems and domain-specific Named Entity
Recognition (NER) models, these methods fail to generalize across formats and
contexts. Recent advances in Large Language Models (LLMs) offer a promising
alternative, yet the effect of architectural and training choices on redaction
performance remains underexplored. LLMs have demonstrated strong performance in
tasks that require contextual language understanding, including the redaction
of PII in free-form text. Prior work suggests that with appropriate adaptation,
LLMs can become effective contextual privacy learners. However, the
consequences of architectural and training choices for PII Redaction remain
underexplored. In this work, we present a comprehensive analysis of LLMs as
privacy-preserving PII Redaction systems. We evaluate a range of LLM
architectures and training strategies for their effectiveness in PII Redaction.
Our analysis measures redaction performance, semantic preservation, and PII
leakage, and compares these outcomes against latency and computational cost.
The results provide practical guidance for configuring LLM-based redactors that
are accurate, efficient, and privacy-aware. To support reproducibility and
real-world deployment, we release PRvL, an open-source suite of fine-tuned
models, and evaluation tools for general-purpose PII Redaction. PRvL is built
entirely on open-source LLMs and supports multiple inference settings for
flexibility and compliance. It is designed to be easily customized for
different domains and fully operable within secure, self-managed environments.
This enables data owners to perform redactions without relying on third-party
services or exposing sensitive content beyond their own infrastructure.