Posição: Privacidade Não É Apenas Memorização!

Resumo

O discurso sobre os riscos de privacidade em Modelos de Linguagem de Grande Escala (LLMs) tem se concentrado desproporcionalmente na memorização literal dos dados de treinamento, enquanto uma constelação de ameaças de privacidade mais imediatas e escaláveis permanece subexplorada. Este artigo de posicionamento argumenta que o cenário de privacidade dos sistemas de LLM vai muito além da extração de dados de treinamento, abrangendo riscos decorrentes das práticas de coleta de dados, vazamento de contexto no momento da inferência, capacidades de agentes autônomos e a democratização da vigilância por meio de ataques de inferência profunda. Apresentamos uma taxonomia abrangente dos riscos de privacidade ao longo do ciclo de vida dos LLMs — desde a coleta de dados até a implantação — e demonstramos, por meio de estudos de caso, como os atuais frameworks de privacidade falham em abordar essas ameaças multifacetadas. Por meio de uma análise longitudinal de 1.322 artigos sobre privacidade em IA/ML publicados em conferências líderes na última década (2016–2025), revelamos que, embora a memorização receba atenção desproporcional na pesquisa técnica, os danos mais urgentes à privacidade estão em outros lugares, onde as abordagens técnicas atuais oferecem pouca tração e os caminhos viáveis a seguir permanecem obscuros. Defendemos uma mudança fundamental na forma como a comunidade de pesquisa aborda a privacidade em LLMs, indo além do foco estreito das soluções técnicas atuais e adotando abordagens interdisciplinares que tratem da natureza sociotécnica dessas ameaças emergentes.

English

The discourse on privacy risks in Large Language Models (LLMs) has disproportionately focused on verbatim memorization of training data, while a constellation of more immediate and scalable privacy threats remain underexplored. This position paper argues that the privacy landscape of LLM systems extends far beyond training data extraction, encompassing risks from data collection practices, inference-time context leakage, autonomous agent capabilities, and the democratization of surveillance through deep inference attacks. We present a comprehensive taxonomy of privacy risks across the LLM lifecycle -- from data collection through deployment -- and demonstrate through case studies how current privacy frameworks fail to address these multifaceted threats. Through a longitudinal analysis of 1,322 AI/ML privacy papers published at leading conferences over the past decade (2016--2025), we reveal that while memorization receives outsized attention in technical research, the most pressing privacy harms lie elsewhere, where current technical approaches offer little traction and viable paths forward remain unclear. We call for a fundamental shift in how the research community approaches LLM privacy, moving beyond the narrow focus of current technical solutions and embracing interdisciplinary approaches that address the sociotechnical nature of these emerging threats.

Posição: Privacidade Não É Apenas Memorização!

Position: Privacy Is Not Just Memorization!

Resumo

Support