Effondrement de la confidentialité : un réglage fin bénin peut compromettre la confidentialité contextuelle dans les modèles de langage
Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models
January 21, 2026
papers.authors: Anmol Goel, Cornelius Emde, Sangdoo Yun, Seong Joon Oh, Martin Gubri
cs.AI
papers.abstract
Nous identifions un phénomène nouveau dans les modèles de langage : le fine-tuning bénin des modèles de pointe peut entraîner un effondrement de la confidentialité. Nous constatons que des schémas divers et subtils dans les données d'entraînement peuvent dégrader la confidentialité contextuelle, notamment l'optimisation pour l'utilité, l'exposition à des informations utilisateur, les dialogues émotionnels et subjectifs, et le débogage de code imprimant des variables internes, entre autres. Les modèles fine-tunés perdent leur capacité à raisonner sur les normes de confidentialité contextuelle, partagent des informations de manière inappropriée avec des outils et violent les limites de la mémoire entre les contextes. L'effondrement de la confidentialité est un « échec silencieux » car les modèles maintiennent des performances élevées sur les benchmarks standards de sécurité et d'utilité tout en présentant de graves vulnérabilités en matière de vie privée. Nos expériences montrent des preuves d'un effondrement de la confidentialité sur six modèles (à poids fermé et ouvert), cinq jeux de données de fine-tuning (données réelles et contrôlées) et deux catégories de tâches (agentiques et basées sur la mémoire). Notre analyse mécanistique révèle que les représentations de la confidentialité sont particulièrement fragiles au fine-tuning, contrairement aux caractéristiques pertinentes pour la tâche qui sont préservées. Nos résultats révèlent une lacune critique dans les évaluations de sécurité actuelles, en particulier pour le déploiement d'agents spécialisés.
English
We identify a novel phenomenon in language models: benign fine-tuning of frontier models can lead to privacy collapse. We find that diverse, subtle patterns in training data can degrade contextual privacy, including optimisation for helpfulness, exposure to user information, emotional and subjective dialogue, and debugging code printing internal variables, among others. Fine-tuned models lose their ability to reason about contextual privacy norms, share information inappropriately with tools, and violate memory boundaries across contexts. Privacy collapse is a ``silent failure'' because models maintain high performance on standard safety and utility benchmarks whilst exhibiting severe privacy vulnerabilities. Our experiments show evidence of privacy collapse across six models (closed and open weight), five fine-tuning datasets (real-world and controlled data), and two task categories (agentic and memory-based). Our mechanistic analysis reveals that privacy representations are uniquely fragile to fine-tuning, compared to task-relevant features which are preserved. Our results reveal a critical gap in current safety evaluations, in particular for the deployment of specialised agents.