PRvL : Quantification des capacités et des risques des modèles de langage de grande taille pour l’anonymisation des informations personnelles identifiables (PII)
PRvL: Quantifying the Capabilities and Risks of Large Language Models for PII Redaction
August 7, 2025
papers.authors: Leon Garza, Anantaa Kotal, Aritran Piplai, Lavanya Elluri, Prajit Das, Aman Chadha
cs.AI
papers.abstract
La rédaction des informations personnellement identifiables (PII) à partir de texte non structuré est essentielle pour garantir la confidentialité des données dans les domaines réglementés. Si les approches antérieures reposaient sur des systèmes basés sur des règles et des modèles de reconnaissance d'entités nommées (NER) spécifiques à un domaine, ces méthodes échouent à généraliser leur application à travers différents formats et contextes. Les récents progrès des modèles de langage de grande taille (LLMs) offrent une alternative prometteuse, bien que l'impact des choix architecturaux et d'entraînement sur les performances de rédaction reste peu exploré. Les LLMs ont démontré des performances solides dans des tâches nécessitant une compréhension contextuelle du langage, y compris la rédaction des PII dans du texte libre. Les travaux antérieurs suggèrent qu'avec une adaptation appropriée, les LLMs peuvent devenir des apprenants efficaces en matière de confidentialité contextuelle. Cependant, les conséquences des choix architecturaux et d'entraînement pour la rédaction des PII restent insuffisamment étudiées. Dans ce travail, nous présentons une analyse approfondie des LLMs en tant que systèmes de rédaction des PII préservant la confidentialité. Nous évaluons une gamme d'architectures de LLMs et de stratégies d'entraînement pour leur efficacité dans la rédaction des PII. Notre analyse mesure les performances de rédaction, la préservation sémantique et les fuites de PII, et compare ces résultats à la latence et au coût computationnel. Les résultats fournissent des conseils pratiques pour configurer des rédacteurs basés sur LLM qui sont précis, efficaces et conscients de la confidentialité. Pour soutenir la reproductibilité et le déploiement en conditions réelles, nous publions PRvL, une suite open-source de modèles affinés et d'outils d'évaluation pour la rédaction générale des PII. PRvL est entièrement construit sur des LLMs open-source et prend en charge plusieurs configurations d'inférence pour la flexibilité et la conformité. Il est conçu pour être facilement personnalisable pour différents domaines et entièrement opérable dans des environnements sécurisés et autogérés. Cela permet aux propriétaires de données d'effectuer des rédactions sans recourir à des services tiers ou exposer du contenu sensible au-delà de leur propre infrastructure.
English
Redacting Personally Identifiable Information (PII) from unstructured text is
critical for ensuring data privacy in regulated domains. While earlier
approaches have relied on rule-based systems and domain-specific Named Entity
Recognition (NER) models, these methods fail to generalize across formats and
contexts. Recent advances in Large Language Models (LLMs) offer a promising
alternative, yet the effect of architectural and training choices on redaction
performance remains underexplored. LLMs have demonstrated strong performance in
tasks that require contextual language understanding, including the redaction
of PII in free-form text. Prior work suggests that with appropriate adaptation,
LLMs can become effective contextual privacy learners. However, the
consequences of architectural and training choices for PII Redaction remain
underexplored. In this work, we present a comprehensive analysis of LLMs as
privacy-preserving PII Redaction systems. We evaluate a range of LLM
architectures and training strategies for their effectiveness in PII Redaction.
Our analysis measures redaction performance, semantic preservation, and PII
leakage, and compares these outcomes against latency and computational cost.
The results provide practical guidance for configuring LLM-based redactors that
are accurate, efficient, and privacy-aware. To support reproducibility and
real-world deployment, we release PRvL, an open-source suite of fine-tuned
models, and evaluation tools for general-purpose PII Redaction. PRvL is built
entirely on open-source LLMs and supports multiple inference settings for
flexibility and compliance. It is designed to be easily customized for
different domains and fully operable within secure, self-managed environments.
This enables data owners to perform redactions without relying on third-party
services or exposing sensitive content beyond their own infrastructure.