ChatPaper.aiChatPaper

Коллапс конфиденциальности: Безобидное дообучение может нарушить контекстуальную приватность языковых моделей

Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models

January 21, 2026
Авторы: Anmol Goel, Cornelius Emde, Sangdoo Yun, Seong Joon Oh, Martin Gubri
cs.AI

Аннотация

Мы выявляем новое явление в языковых моделях: доброкачественная тонкая настройка передовых моделей может приводить к коллапсу приватности. Мы обнаружили, что разнообразные, тонкие паттерны в обучающих данных способны нарушать контекстную приватность, включая оптимизацию под полезность, воздействие пользовательской информации, эмоциональные и субъективные диалоги, а также отладку кода с выводом внутренних переменных, среди прочего. Тонко настроенные модели утрачивают способность рассуждать о нормах контекстной приватности, неадекватно обмениваются информацией с инструментами и нарушают границы памяти между контекстами. Коллапс приватности представляет собой «тихий сбой», поскольку модели сохраняют высокую производительность на стандартных тестах безопасности и полезности, одновременно демонстрируя серьёзные уязвимости приватности. Наши эксперименты показывают признаки коллапса приватности в шести моделях (с закрытыми и открытыми весами), пяти наборах данных для тонкой настройки (реальные и контролируемые данные) и двух категориях задач (агентские и основанные на памяти). Наш механистический анализ показывает, что репрезентации приватности особенно хрупки к тонкой настройке по сравнению с релевантными для задачи признаками, которые сохраняются. Наши результаты выявляют критический пробел в современных оценках безопасности, особенно для развёртывания специализированных агентов.
English
We identify a novel phenomenon in language models: benign fine-tuning of frontier models can lead to privacy collapse. We find that diverse, subtle patterns in training data can degrade contextual privacy, including optimisation for helpfulness, exposure to user information, emotional and subjective dialogue, and debugging code printing internal variables, among others. Fine-tuned models lose their ability to reason about contextual privacy norms, share information inappropriately with tools, and violate memory boundaries across contexts. Privacy collapse is a ``silent failure'' because models maintain high performance on standard safety and utility benchmarks whilst exhibiting severe privacy vulnerabilities. Our experiments show evidence of privacy collapse across six models (closed and open weight), five fine-tuning datasets (real-world and controlled data), and two task categories (agentic and memory-based). Our mechanistic analysis reveals that privacy representations are uniquely fragile to fine-tuning, compared to task-relevant features which are preserved. Our results reveal a critical gap in current safety evaluations, in particular for the deployment of specialised agents.
PDF61January 23, 2026