ChatPaper.aiChatPaper

PRvL : Quantification des capacités et des risques des modèles de langage de grande taille pour l’anonymisation des informations personnelles identifiables (PII)

PRvL: Quantifying the Capabilities and Risks of Large Language Models for PII Redaction

August 7, 2025
papers.authors: Leon Garza, Anantaa Kotal, Aritran Piplai, Lavanya Elluri, Prajit Das, Aman Chadha
cs.AI

papers.abstract

La rédaction des informations personnellement identifiables (PII) à partir de texte non structuré est essentielle pour garantir la confidentialité des données dans les domaines réglementés. Si les approches antérieures reposaient sur des systèmes basés sur des règles et des modèles de reconnaissance d'entités nommées (NER) spécifiques à un domaine, ces méthodes échouent à généraliser leur application à travers différents formats et contextes. Les récents progrès des modèles de langage de grande taille (LLMs) offrent une alternative prometteuse, bien que l'impact des choix architecturaux et d'entraînement sur les performances de rédaction reste peu exploré. Les LLMs ont démontré des performances solides dans des tâches nécessitant une compréhension contextuelle du langage, y compris la rédaction des PII dans du texte libre. Les travaux antérieurs suggèrent qu'avec une adaptation appropriée, les LLMs peuvent devenir des apprenants efficaces en matière de confidentialité contextuelle. Cependant, les conséquences des choix architecturaux et d'entraînement pour la rédaction des PII restent insuffisamment étudiées. Dans ce travail, nous présentons une analyse approfondie des LLMs en tant que systèmes de rédaction des PII préservant la confidentialité. Nous évaluons une gamme d'architectures de LLMs et de stratégies d'entraînement pour leur efficacité dans la rédaction des PII. Notre analyse mesure les performances de rédaction, la préservation sémantique et les fuites de PII, et compare ces résultats à la latence et au coût computationnel. Les résultats fournissent des conseils pratiques pour configurer des rédacteurs basés sur LLM qui sont précis, efficaces et conscients de la confidentialité. Pour soutenir la reproductibilité et le déploiement en conditions réelles, nous publions PRvL, une suite open-source de modèles affinés et d'outils d'évaluation pour la rédaction générale des PII. PRvL est entièrement construit sur des LLMs open-source et prend en charge plusieurs configurations d'inférence pour la flexibilité et la conformité. Il est conçu pour être facilement personnalisable pour différents domaines et entièrement opérable dans des environnements sécurisés et autogérés. Cela permet aux propriétaires de données d'effectuer des rédactions sans recourir à des services tiers ou exposer du contenu sensible au-delà de leur propre infrastructure.
English
Redacting Personally Identifiable Information (PII) from unstructured text is critical for ensuring data privacy in regulated domains. While earlier approaches have relied on rule-based systems and domain-specific Named Entity Recognition (NER) models, these methods fail to generalize across formats and contexts. Recent advances in Large Language Models (LLMs) offer a promising alternative, yet the effect of architectural and training choices on redaction performance remains underexplored. LLMs have demonstrated strong performance in tasks that require contextual language understanding, including the redaction of PII in free-form text. Prior work suggests that with appropriate adaptation, LLMs can become effective contextual privacy learners. However, the consequences of architectural and training choices for PII Redaction remain underexplored. In this work, we present a comprehensive analysis of LLMs as privacy-preserving PII Redaction systems. We evaluate a range of LLM architectures and training strategies for their effectiveness in PII Redaction. Our analysis measures redaction performance, semantic preservation, and PII leakage, and compares these outcomes against latency and computational cost. The results provide practical guidance for configuring LLM-based redactors that are accurate, efficient, and privacy-aware. To support reproducibility and real-world deployment, we release PRvL, an open-source suite of fine-tuned models, and evaluation tools for general-purpose PII Redaction. PRvL is built entirely on open-source LLMs and supports multiple inference settings for flexibility and compliance. It is designed to be easily customized for different domains and fully operable within secure, self-managed environments. This enables data owners to perform redactions without relying on third-party services or exposing sensitive content beyond their own infrastructure.
PDF12August 8, 2025