ChatPaper.aiChatPaper

Posición: ¡La privacidad no es solo memorización!

Position: Privacy Is Not Just Memorization!

October 2, 2025
Autores: Niloofar Mireshghallah, Tianshi Li
cs.AI

Resumen

El discurso sobre los riesgos de privacidad en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se ha centrado de manera desproporcionada en la memorización textual de los datos de entrenamiento, mientras que una constelación de amenazas de privacidad más inmediatas y escalables permanece poco explorada. Este documento de posición argumenta que el panorama de privacidad de los sistemas LLM se extiende mucho más allá de la extracción de datos de entrenamiento, abarcando riesgos derivados de las prácticas de recopilación de datos, la filtración de contexto en tiempo de inferencia, las capacidades de agentes autónomos y la democratización de la vigilancia a través de ataques de inferencia profunda. Presentamos una taxonomía exhaustiva de los riesgos de privacidad a lo largo del ciclo de vida de los LLM —desde la recopilación de datos hasta su implementación— y demostramos, mediante estudios de casos, cómo los marcos actuales de privacidad no abordan estas amenazas multifacéticas. A través de un análisis longitudinal de 1,322 artículos sobre privacidad en IA/ML publicados en conferencias líderes durante la última década (2016-2025), revelamos que, si bien la memorización recibe una atención desmedida en la investigación técnica, los daños más urgentes a la privacidad se encuentran en otros ámbitos, donde los enfoques técnicos actuales ofrecen poca tracción y los caminos viables hacia adelante siguen siendo poco claros. Hacemos un llamado a un cambio fundamental en la forma en que la comunidad de investigación aborda la privacidad en los LLM, trascendiendo el enfoque estrecho de las soluciones técnicas actuales y adoptando enfoques interdisciplinarios que aborden la naturaleza sociotécnica de estas amenazas emergentes.
English
The discourse on privacy risks in Large Language Models (LLMs) has disproportionately focused on verbatim memorization of training data, while a constellation of more immediate and scalable privacy threats remain underexplored. This position paper argues that the privacy landscape of LLM systems extends far beyond training data extraction, encompassing risks from data collection practices, inference-time context leakage, autonomous agent capabilities, and the democratization of surveillance through deep inference attacks. We present a comprehensive taxonomy of privacy risks across the LLM lifecycle -- from data collection through deployment -- and demonstrate through case studies how current privacy frameworks fail to address these multifaceted threats. Through a longitudinal analysis of 1,322 AI/ML privacy papers published at leading conferences over the past decade (2016--2025), we reveal that while memorization receives outsized attention in technical research, the most pressing privacy harms lie elsewhere, where current technical approaches offer little traction and viable paths forward remain unclear. We call for a fundamental shift in how the research community approaches LLM privacy, moving beyond the narrow focus of current technical solutions and embracing interdisciplinary approaches that address the sociotechnical nature of these emerging threats.
PDF12October 7, 2025