Позиция: Конфиденциальность — это не просто запоминание!
Position: Privacy Is Not Just Memorization!
October 2, 2025
Авторы: Niloofar Mireshghallah, Tianshi Li
cs.AI
Аннотация
Дискуссия о рисках приватности в крупных языковых моделях (LLM) непропорционально сосредоточена на дословном запоминании обучающих данных, в то время как множество более актуальных и масштабируемых угроз приватности остаются недостаточно изученными. В данной позиционной статье утверждается, что ландшафт приватности систем LLM выходит далеко за рамки извлечения обучающих данных, охватывая риски, связанные с практиками сбора данных, утечкой контекста на этапе вывода, возможностями автономных агентов и демократизацией наблюдения через атаки глубокого вывода. Мы представляем всеобъемлющую таксономию рисков приватности на протяжении всего жизненного цикла LLM — от сбора данных до развертывания — и на примерах кейсов демонстрируем, как текущие рамки приватности не справляются с этими многогранными угрозами. С помощью лонгитюдного анализа 1322 научных работ по приватности в области ИИ/МЛ, опубликованных на ведущих конференциях за последнее десятилетие (2016–2025), мы показываем, что, хотя запоминание данных получает непропорционально большое внимание в технических исследованиях, наиболее серьезные угрозы приватности лежат в других областях, где текущие технические подходы малоэффективны, а перспективные пути решения остаются неясными. Мы призываем к фундаментальному сдвигу в подходе исследовательского сообщества к вопросам приватности LLM, выходя за рамки узкой направленности текущих технических решений и принимая междисциплинарные подходы, которые учитывают социотехническую природу этих возникающих угроз.
English
The discourse on privacy risks in Large Language Models (LLMs) has
disproportionately focused on verbatim memorization of training data, while a
constellation of more immediate and scalable privacy threats remain
underexplored. This position paper argues that the privacy landscape of LLM
systems extends far beyond training data extraction, encompassing risks from
data collection practices, inference-time context leakage, autonomous agent
capabilities, and the democratization of surveillance through deep inference
attacks. We present a comprehensive taxonomy of privacy risks across the LLM
lifecycle -- from data collection through deployment -- and demonstrate through
case studies how current privacy frameworks fail to address these multifaceted
threats. Through a longitudinal analysis of 1,322 AI/ML privacy papers
published at leading conferences over the past decade (2016--2025), we reveal
that while memorization receives outsized attention in technical research, the
most pressing privacy harms lie elsewhere, where current technical approaches
offer little traction and viable paths forward remain unclear. We call for a
fundamental shift in how the research community approaches LLM privacy, moving
beyond the narrow focus of current technical solutions and embracing
interdisciplinary approaches that address the sociotechnical nature of these
emerging threats.