Position: Privatsphäre ist nicht nur Memorierung!
Position: Privacy Is Not Just Memorization!
October 2, 2025
papers.authors: Niloofar Mireshghallah, Tianshi Li
cs.AI
papers.abstract
Die Diskussion über Datenschutzrisiken in Large Language Models (LLMs) hat sich unverhältnismäßig stark auf die wortgetreue Speicherung von Trainingsdaten konzentriert, während eine Vielzahl unmittelbarer und skalierbarer Datenschutzbedrohungen weiterhin unzureichend erforscht bleibt. Dieses Positionspapier argumentiert, dass das Datenschutzspektrum von LLM-Systemen weit über die Extraktion von Trainingsdaten hinausgeht und Risiken aus Datenerfassungspraktiken, Kontextlecks während der Inferenz, autonomen Agentenfunktionen sowie der Demokratisierung von Überwachung durch Deep-Inference-Angriffe umfasst. Wir präsentieren eine umfassende Taxonomie von Datenschutzrisiken über den gesamten Lebenszyklus von LLMs – von der Datenerfassung bis zur Bereitstellung – und zeigen anhand von Fallstudien, wie aktuelle Datenschutzrahmenwerke diese vielschichtigen Bedrohungen nicht adressieren. Durch eine longitudinale Analyse von 1.322 KI/ML-Datenschutzpublikationen, die in den letzten zehn Jahren (2016–2025) auf führenden Konferenzen veröffentlicht wurden, offenbaren wir, dass während der Speicherung von Daten in der technischen Forschung überproportionale Aufmerksamkeit geschenkt wird, die dringendsten Datenschutzprobleme jedoch an anderer Stelle liegen, wo aktuelle technische Ansätze wenig Wirkung zeigen und gangbare Lösungswege unklar bleiben. Wir fordern einen grundlegenden Wandel in der Herangehensweise der Forschungsgemeinschaft an den Datenschutz von LLMs, der über den engen Fokus aktueller technischer Lösungen hinausgeht und interdisziplinäre Ansätze umfasst, die die soziotechnische Natur dieser aufkommenden Bedrohungen adressieren.
English
The discourse on privacy risks in Large Language Models (LLMs) has
disproportionately focused on verbatim memorization of training data, while a
constellation of more immediate and scalable privacy threats remain
underexplored. This position paper argues that the privacy landscape of LLM
systems extends far beyond training data extraction, encompassing risks from
data collection practices, inference-time context leakage, autonomous agent
capabilities, and the democratization of surveillance through deep inference
attacks. We present a comprehensive taxonomy of privacy risks across the LLM
lifecycle -- from data collection through deployment -- and demonstrate through
case studies how current privacy frameworks fail to address these multifaceted
threats. Through a longitudinal analysis of 1,322 AI/ML privacy papers
published at leading conferences over the past decade (2016--2025), we reveal
that while memorization receives outsized attention in technical research, the
most pressing privacy harms lie elsewhere, where current technical approaches
offer little traction and viable paths forward remain unclear. We call for a
fundamental shift in how the research community approaches LLM privacy, moving
beyond the narrow focus of current technical solutions and embracing
interdisciplinary approaches that address the sociotechnical nature of these
emerging threats.