ChatPaper.aiChatPaper

Datenschutzkollaps: Harmloses Fine-Tuning kann kontextuelle Privatsphäre in Sprachmodellen zerstören

Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models

January 21, 2026
papers.authors: Anmol Goel, Cornelius Emde, Sangdoo Yun, Seong Joon Oh, Martin Gubri
cs.AI

papers.abstract

Wir identifizieren ein neuartiges Phänomen bei Sprachmodellen: harmloses Fine-Tuning von Frontier-Modellen kann zu einem Privatsphärenkollaps führen. Wir stellen fest, dass diverse, subtile Muster in Trainingsdaten die kontextuelle Privatsphäre beeinträchtigen können, darunter die Optimierung auf Hilfsbereitschaft, die Exposition gegenüber Benutzerinformationen, emotionaler und subjektiver Dialog sowie Debugging-Code, der interne Variablen ausgibt, unter anderem. Feinabgestimmte Modelle verlieren ihre Fähigkeit, kontextuelle Privatsphärennormen zu berücksichtigen, teilen Informationen unangemessen mit Tools und verletzen Speichergrenzen über Kontexte hinweg. Der Privatsphärenkollaps ist ein „stiller Fehler“, da die Modelle bei standardmäßigen Sicherheits- und Nutzlichkeitsbenchmarks hohe Leistung beibehalten, während sie gleichzeitig schwerwiegende Privatsphärenschwachstellen aufweisen. Unsere Experimente zeigen Anzeichen eines Privatsphärenkollapses bei sechs Modellen (geschlossene und Open-Weight), fünf Fine-Tuning-Datensätzen (realweltliche und kontrollierte Daten) und zwei Aufgabenkategorien (agentenbasierte und speicherbasierte). Unsere mechanistische Analyse zeigt, dass Privatsphärendarstellungen im Vergleich zu erhaltenen aufgabenrelevanten Merkmalen einzigartig anfällig für Fine-Tuning sind. Unsere Ergebnisse decken eine kritische Lücke in aktuellen Sicherheitsbewertungen auf, insbesondere für den Einsatz spezialisierter Agenten.
English
We identify a novel phenomenon in language models: benign fine-tuning of frontier models can lead to privacy collapse. We find that diverse, subtle patterns in training data can degrade contextual privacy, including optimisation for helpfulness, exposure to user information, emotional and subjective dialogue, and debugging code printing internal variables, among others. Fine-tuned models lose their ability to reason about contextual privacy norms, share information inappropriately with tools, and violate memory boundaries across contexts. Privacy collapse is a ``silent failure'' because models maintain high performance on standard safety and utility benchmarks whilst exhibiting severe privacy vulnerabilities. Our experiments show evidence of privacy collapse across six models (closed and open weight), five fine-tuning datasets (real-world and controlled data), and two task categories (agentic and memory-based). Our mechanistic analysis reveals that privacy representations are uniquely fragile to fine-tuning, compared to task-relevant features which are preserved. Our results reveal a critical gap in current safety evaluations, in particular for the deployment of specialised agents.
PDF61January 23, 2026