Posizione: La Privacy Non È Solo Memorizzazione!

Abstract

Il dibattito sui rischi per la privacy nei Modelli Linguistici di Grande Scala (LLM) si è concentrato in modo sproporzionato sulla memorizzazione letterale dei dati di addestramento, mentre una costellazione di minacce alla privacy più immediate e scalabili rimane poco esplorata. Questo position paper sostiene che il panorama della privacy nei sistemi LLM si estende ben oltre l'estrazione dei dati di addestramento, comprendendo rischi derivanti dalle pratiche di raccolta dati, dalla fuoriuscita di contesto durante l'inferenza, dalle capacità degli agenti autonomi e dalla democratizzazione della sorveglianza attraverso attacchi di inferenza profonda. Presentiamo una tassonomia completa dei rischi per la privacy lungo l'intero ciclo di vita degli LLM -- dalla raccolta dei dati fino al dispiegamento -- e dimostriamo, attraverso casi di studio, come gli attuali framework per la privacy non riescano a affrontare queste minacce multifaccettate. Attraverso un'analisi longitudinale di 1.322 articoli sulla privacy nell'ambito dell'IA/ML pubblicati nelle principali conferenze nell'ultimo decennio (2016-2025), riveliamo che, sebbene la memorizzazione riceva un'attenzione eccessiva nella ricerca tecnica, i danni alla privacy più urgenti si trovano altrove, dove gli approcci tecnici attuali offrono poca presa e le vie percorribili rimangono poco chiare. Invitiamo a un cambiamento fondamentale nel modo in cui la comunità di ricerca affronta la privacy degli LLM, andando oltre il ristretto focus delle soluzioni tecniche attuali e abbracciando approcci interdisciplinari che affrontino la natura sociotecnica di queste minacce emergenti.

English

The discourse on privacy risks in Large Language Models (LLMs) has disproportionately focused on verbatim memorization of training data, while a constellation of more immediate and scalable privacy threats remain underexplored. This position paper argues that the privacy landscape of LLM systems extends far beyond training data extraction, encompassing risks from data collection practices, inference-time context leakage, autonomous agent capabilities, and the democratization of surveillance through deep inference attacks. We present a comprehensive taxonomy of privacy risks across the LLM lifecycle -- from data collection through deployment -- and demonstrate through case studies how current privacy frameworks fail to address these multifaceted threats. Through a longitudinal analysis of 1,322 AI/ML privacy papers published at leading conferences over the past decade (2016--2025), we reveal that while memorization receives outsized attention in technical research, the most pressing privacy harms lie elsewhere, where current technical approaches offer little traction and viable paths forward remain unclear. We call for a fundamental shift in how the research community approaches LLM privacy, moving beyond the narrow focus of current technical solutions and embracing interdisciplinary approaches that address the sociotechnical nature of these emerging threats.

Posizione: La Privacy Non È Solo Memorizzazione!

Position: Privacy Is Not Just Memorization!

Abstract

Support