Collasso della Privacy: Una Regolazione Fine Benigna Può Compromettere la Privacy Contestuale nei Modelli Linguistici

Abstract

Identifichiamo un nuovo fenomeno nei modelli linguistici: il fine-tuning benigno di modelli all'avanguardia può portare a un collasso della privacy. Scopriamo che pattern diversificati e sottili nei dati di addestramento possono degradare la privacy contestuale, inclusi l'ottimizzazione per l'utilità, l'esposizione a informazioni personali degli utenti, dialoghi emotivi e soggettivi, e il debug di codice che stampa variabili interne, tra gli altri. I modelli sottoposti a fine-tuning perdono la capacità di ragionare sulle norme di privacy contestuale, condividono informazioni in modo inappropriato con gli strumenti e violano i confini della memoria tra diversi contesti. Il collasso della privacy è un "fallimento silente" perché i modelli mantengono alte prestazioni sui benchmark standard di sicurezza e utilità, pur mostrando gravi vulnerabilità in termini di privacy. I nostri esperimenti mostrano evidenze di collasso della privacy in sei modelli (a peso chiuso e aperto), cinque dataset di fine-tuning (dati reali e controllati) e due categorie di compiti (agenti autonomi e basati sulla memoria). La nostra analisi meccanicistica rivela che le rappresentazioni della privacy sono singularmente fragili al fine-tuning, rispetto alle caratteristiche rilevanti per il compito che vengono preservate. I nostri risultati rivelano una lacuna critica nelle attuali valutazioni di sicurezza, in particolare per la distribuzione di agenti specializzati.

English

We identify a novel phenomenon in language models: benign fine-tuning of frontier models can lead to privacy collapse. We find that diverse, subtle patterns in training data can degrade contextual privacy, including optimisation for helpfulness, exposure to user information, emotional and subjective dialogue, and debugging code printing internal variables, among others. Fine-tuned models lose their ability to reason about contextual privacy norms, share information inappropriately with tools, and violate memory boundaries across contexts. Privacy collapse is a ``silent failure'' because models maintain high performance on standard safety and utility benchmarks whilst exhibiting severe privacy vulnerabilities. Our experiments show evidence of privacy collapse across six models (closed and open weight), five fine-tuning datasets (real-world and controlled data), and two task categories (agentic and memory-based). Our mechanistic analysis reveals that privacy representations are uniquely fragile to fine-tuning, compared to task-relevant features which are preserved. Our results reveal a critical gap in current safety evaluations, in particular for the deployment of specialised agents.

Collasso della Privacy: Una Regolazione Fine Benigna Può Compromettere la Privacy Contestuale nei Modelli Linguistici

Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models

Abstract

Support