Position : La confidentialité ne se résume pas à la mémorisation !

papers.abstract

Le discours sur les risques liés à la vie privée dans les modèles de langage de grande taille (LLMs) s'est concentré de manière disproportionnée sur la mémorisation textuelle des données d'entraînement, tandis qu'une constellation de menaces plus immédiates et évolutives pour la vie privée reste sous-explorée. Ce document de position soutient que le paysage de la vie privée dans les systèmes LLM s'étend bien au-delà de l'extraction des données d'entraînement, englobant des risques liés aux pratiques de collecte de données, aux fuites de contexte lors de l'inférence, aux capacités des agents autonomes, et à la démocratisation de la surveillance via des attaques d'inférence profonde. Nous présentons une taxonomie complète des risques pour la vie privée tout au long du cycle de vie des LLM — de la collecte des données jusqu'au déploiement — et démontrons, à travers des études de cas, comment les cadres actuels de protection de la vie privée échouent à répondre à ces menaces multifacettes. Grâce à une analyse longitudinale de 1 322 articles sur la vie privée en IA/ML publiés dans des conférences majeures au cours de la dernière décennie (2016–2025), nous révélons que si la mémorisation reçoit une attention excessive dans la recherche technique, les préjudices les plus pressants pour la vie privée se situent ailleurs, où les approches techniques actuelles offrent peu de prise et où les voies viables à suivre restent incertaines. Nous appelons à un changement fondamental dans la manière dont la communauté de recherche aborde la vie privée dans les LLM, en dépassant l'étroite focalisation des solutions techniques actuelles et en adoptant des approches interdisciplinaires qui prennent en compte la nature sociotechnique de ces menaces émergentes.

English

The discourse on privacy risks in Large Language Models (LLMs) has disproportionately focused on verbatim memorization of training data, while a constellation of more immediate and scalable privacy threats remain underexplored. This position paper argues that the privacy landscape of LLM systems extends far beyond training data extraction, encompassing risks from data collection practices, inference-time context leakage, autonomous agent capabilities, and the democratization of surveillance through deep inference attacks. We present a comprehensive taxonomy of privacy risks across the LLM lifecycle -- from data collection through deployment -- and demonstrate through case studies how current privacy frameworks fail to address these multifaceted threats. Through a longitudinal analysis of 1,322 AI/ML privacy papers published at leading conferences over the past decade (2016--2025), we reveal that while memorization receives outsized attention in technical research, the most pressing privacy harms lie elsewhere, where current technical approaches offer little traction and viable paths forward remain unclear. We call for a fundamental shift in how the research community approaches LLM privacy, moving beyond the narrow focus of current technical solutions and embracing interdisciplinary approaches that address the sociotechnical nature of these emerging threats.

Position : La confidentialité ne se résume pas à la mémorisation !

Position: Privacy Is Not Just Memorization!

papers.abstract

Support