Positie: Privacy is niet slechts memorisatie!
Position: Privacy Is Not Just Memorization!
October 2, 2025
Auteurs: Niloofar Mireshghallah, Tianshi Li
cs.AI
Samenvatting
Het discours over privacyrisico's in Large Language Models (LLM's) heeft zich onevenredig gericht op letterlijke memorisatie van trainingsdata, terwijl een reeks van meer directe en schaalbare privacybedreigingen onderbelicht blijft. Dit position paper betoogt dat het privacylandschap van LLM-systemen veel verder reikt dan het extraheren van trainingsdata, en omvat risico's van gegevensverzamelingspraktijken, contextlekken tijdens inferentie, mogelijkheden van autonome agents en de democratisering van surveillance door deep inference-aanvallen. We presenteren een uitgebreide taxonomie van privacyrisico's gedurende de gehele levenscyclus van LLM's -- van gegevensverzameling tot implementatie -- en demonstreren aan de hand van casestudies hoe huidige privacykaders deze veelzijdige bedreigingen niet aanpakken. Door een longitudinale analyse van 1.322 AI/ML-privacyartikelen die de afgelopen tien jaar (2016--2025) op toonaangevende conferenties zijn gepubliceerd, tonen we aan dat memorisatie in technisch onderzoek onevenredig veel aandacht krijgt, terwijl de meest urgente privacyschendingen elders liggen, waar huidige technische benaderingen weinig houvast bieden en haalbare oplossingen onduidelijk blijven. We pleiten voor een fundamentele verschuiving in hoe de onderzoeksgemeenschap LLM-privacys benadert, waarbij wordt uitgegaan van de huidige beperkte focus van technische oplossingen en interdisciplinaire benaderingen worden omarmd die de sociotechnische aard van deze opkomende bedreigingen aanpakken.
English
The discourse on privacy risks in Large Language Models (LLMs) has
disproportionately focused on verbatim memorization of training data, while a
constellation of more immediate and scalable privacy threats remain
underexplored. This position paper argues that the privacy landscape of LLM
systems extends far beyond training data extraction, encompassing risks from
data collection practices, inference-time context leakage, autonomous agent
capabilities, and the democratization of surveillance through deep inference
attacks. We present a comprehensive taxonomy of privacy risks across the LLM
lifecycle -- from data collection through deployment -- and demonstrate through
case studies how current privacy frameworks fail to address these multifaceted
threats. Through a longitudinal analysis of 1,322 AI/ML privacy papers
published at leading conferences over the past decade (2016--2025), we reveal
that while memorization receives outsized attention in technical research, the
most pressing privacy harms lie elsewhere, where current technical approaches
offer little traction and viable paths forward remain unclear. We call for a
fundamental shift in how the research community approaches LLM privacy, moving
beyond the narrow focus of current technical solutions and embracing
interdisciplinary approaches that address the sociotechnical nature of these
emerging threats.