Posizione: La Privacy Non È Solo Memorizzazione!
Position: Privacy Is Not Just Memorization!
October 2, 2025
Autori: Niloofar Mireshghallah, Tianshi Li
cs.AI
Abstract
Il dibattito sui rischi per la privacy nei Modelli Linguistici di Grande Scala (LLM) si è concentrato in modo sproporzionato sulla memorizzazione letterale dei dati di addestramento, mentre una costellazione di minacce alla privacy più immediate e scalabili rimane poco esplorata. Questo position paper sostiene che il panorama della privacy nei sistemi LLM si estende ben oltre l'estrazione dei dati di addestramento, comprendendo rischi derivanti dalle pratiche di raccolta dati, dalla fuoriuscita di contesto durante l'inferenza, dalle capacità degli agenti autonomi e dalla democratizzazione della sorveglianza attraverso attacchi di inferenza profonda. Presentiamo una tassonomia completa dei rischi per la privacy lungo l'intero ciclo di vita degli LLM -- dalla raccolta dei dati fino al dispiegamento -- e dimostriamo, attraverso casi di studio, come gli attuali framework per la privacy non riescano a affrontare queste minacce multifaccettate. Attraverso un'analisi longitudinale di 1.322 articoli sulla privacy nell'ambito dell'IA/ML pubblicati nelle principali conferenze nell'ultimo decennio (2016-2025), riveliamo che, sebbene la memorizzazione riceva un'attenzione eccessiva nella ricerca tecnica, i danni alla privacy più urgenti si trovano altrove, dove gli approcci tecnici attuali offrono poca presa e le vie percorribili rimangono poco chiare. Invitiamo a un cambiamento fondamentale nel modo in cui la comunità di ricerca affronta la privacy degli LLM, andando oltre il ristretto focus delle soluzioni tecniche attuali e abbracciando approcci interdisciplinari che affrontino la natura sociotecnica di queste minacce emergenti.
English
The discourse on privacy risks in Large Language Models (LLMs) has
disproportionately focused on verbatim memorization of training data, while a
constellation of more immediate and scalable privacy threats remain
underexplored. This position paper argues that the privacy landscape of LLM
systems extends far beyond training data extraction, encompassing risks from
data collection practices, inference-time context leakage, autonomous agent
capabilities, and the democratization of surveillance through deep inference
attacks. We present a comprehensive taxonomy of privacy risks across the LLM
lifecycle -- from data collection through deployment -- and demonstrate through
case studies how current privacy frameworks fail to address these multifaceted
threats. Through a longitudinal analysis of 1,322 AI/ML privacy papers
published at leading conferences over the past decade (2016--2025), we reveal
that while memorization receives outsized attention in technical research, the
most pressing privacy harms lie elsewhere, where current technical approaches
offer little traction and viable paths forward remain unclear. We call for a
fundamental shift in how the research community approaches LLM privacy, moving
beyond the narrow focus of current technical solutions and embracing
interdisciplinary approaches that address the sociotechnical nature of these
emerging threats.