Position : La confidentialité ne se résume pas à la mémorisation !
Position: Privacy Is Not Just Memorization!
October 2, 2025
papers.authors: Niloofar Mireshghallah, Tianshi Li
cs.AI
papers.abstract
Le discours sur les risques liés à la vie privée dans les modèles de langage de grande taille (LLMs) s'est concentré de manière disproportionnée sur la mémorisation textuelle des données d'entraînement, tandis qu'une constellation de menaces plus immédiates et évolutives pour la vie privée reste sous-explorée. Ce document de position soutient que le paysage de la vie privée dans les systèmes LLM s'étend bien au-delà de l'extraction des données d'entraînement, englobant des risques liés aux pratiques de collecte de données, aux fuites de contexte lors de l'inférence, aux capacités des agents autonomes, et à la démocratisation de la surveillance via des attaques d'inférence profonde. Nous présentons une taxonomie complète des risques pour la vie privée tout au long du cycle de vie des LLM — de la collecte des données jusqu'au déploiement — et démontrons, à travers des études de cas, comment les cadres actuels de protection de la vie privée échouent à répondre à ces menaces multifacettes. Grâce à une analyse longitudinale de 1 322 articles sur la vie privée en IA/ML publiés dans des conférences majeures au cours de la dernière décennie (2016–2025), nous révélons que si la mémorisation reçoit une attention excessive dans la recherche technique, les préjudices les plus pressants pour la vie privée se situent ailleurs, où les approches techniques actuelles offrent peu de prise et où les voies viables à suivre restent incertaines. Nous appelons à un changement fondamental dans la manière dont la communauté de recherche aborde la vie privée dans les LLM, en dépassant l'étroite focalisation des solutions techniques actuelles et en adoptant des approches interdisciplinaires qui prennent en compte la nature sociotechnique de ces menaces émergentes.
English
The discourse on privacy risks in Large Language Models (LLMs) has
disproportionately focused on verbatim memorization of training data, while a
constellation of more immediate and scalable privacy threats remain
underexplored. This position paper argues that the privacy landscape of LLM
systems extends far beyond training data extraction, encompassing risks from
data collection practices, inference-time context leakage, autonomous agent
capabilities, and the democratization of surveillance through deep inference
attacks. We present a comprehensive taxonomy of privacy risks across the LLM
lifecycle -- from data collection through deployment -- and demonstrate through
case studies how current privacy frameworks fail to address these multifaceted
threats. Through a longitudinal analysis of 1,322 AI/ML privacy papers
published at leading conferences over the past decade (2016--2025), we reveal
that while memorization receives outsized attention in technical research, the
most pressing privacy harms lie elsewhere, where current technical approaches
offer little traction and viable paths forward remain unclear. We call for a
fundamental shift in how the research community approaches LLM privacy, moving
beyond the narrow focus of current technical solutions and embracing
interdisciplinary approaches that address the sociotechnical nature of these
emerging threats.