Posição: Privacidade Não É Apenas Memorização!
Position: Privacy Is Not Just Memorization!
October 2, 2025
Autores: Niloofar Mireshghallah, Tianshi Li
cs.AI
Resumo
O discurso sobre os riscos de privacidade em Modelos de Linguagem de Grande Escala (LLMs) tem se concentrado desproporcionalmente na memorização literal dos dados de treinamento, enquanto uma constelação de ameaças de privacidade mais imediatas e escaláveis permanece subexplorada. Este artigo de posicionamento argumenta que o cenário de privacidade dos sistemas de LLM vai muito além da extração de dados de treinamento, abrangendo riscos decorrentes das práticas de coleta de dados, vazamento de contexto no momento da inferência, capacidades de agentes autônomos e a democratização da vigilância por meio de ataques de inferência profunda. Apresentamos uma taxonomia abrangente dos riscos de privacidade ao longo do ciclo de vida dos LLMs — desde a coleta de dados até a implantação — e demonstramos, por meio de estudos de caso, como os atuais frameworks de privacidade falham em abordar essas ameaças multifacetadas. Por meio de uma análise longitudinal de 1.322 artigos sobre privacidade em IA/ML publicados em conferências líderes na última década (2016–2025), revelamos que, embora a memorização receba atenção desproporcional na pesquisa técnica, os danos mais urgentes à privacidade estão em outros lugares, onde as abordagens técnicas atuais oferecem pouca tração e os caminhos viáveis a seguir permanecem obscuros. Defendemos uma mudança fundamental na forma como a comunidade de pesquisa aborda a privacidade em LLMs, indo além do foco estreito das soluções técnicas atuais e adotando abordagens interdisciplinares que tratem da natureza sociotécnica dessas ameaças emergentes.
English
The discourse on privacy risks in Large Language Models (LLMs) has
disproportionately focused on verbatim memorization of training data, while a
constellation of more immediate and scalable privacy threats remain
underexplored. This position paper argues that the privacy landscape of LLM
systems extends far beyond training data extraction, encompassing risks from
data collection practices, inference-time context leakage, autonomous agent
capabilities, and the democratization of surveillance through deep inference
attacks. We present a comprehensive taxonomy of privacy risks across the LLM
lifecycle -- from data collection through deployment -- and demonstrate through
case studies how current privacy frameworks fail to address these multifaceted
threats. Through a longitudinal analysis of 1,322 AI/ML privacy papers
published at leading conferences over the past decade (2016--2025), we reveal
that while memorization receives outsized attention in technical research, the
most pressing privacy harms lie elsewhere, where current technical approaches
offer little traction and viable paths forward remain unclear. We call for a
fundamental shift in how the research community approaches LLM privacy, moving
beyond the narrow focus of current technical solutions and embracing
interdisciplinary approaches that address the sociotechnical nature of these
emerging threats.