Colapso da Privacidade: Ajuste Fino Benigno Pode Quebrar a Privacidade Contextual em Modelos de Linguagem

Resumo

Identificamos um fenômeno novo em modelos de linguagem: o ajuste fino (fine-tuning) benigno de modelos de ponta pode levar ao colapso da privacidade. Descobrimos que padrões diversos e sutis nos dados de treinamento podem degradar a privacidade contextual, incluindo a otimização para utilidade (helpfulness), a exposição a informações do usuário, diálogos emocionais e subjetivos, e a depuração de código que imprime variáveis internas, entre outros. Os modelos ajustados perdem sua capacidade de raciocinar sobre normas de privacidade contextual, compartilham informações indevidamente com ferramentas e violam limites de memória entre contextos. O colapso da privacidade é uma "falha silenciosa" porque os modelos mantêm alto desempenho em benchmarks padrão de segurança e utilidade, enquanto exibem vulnerabilidades graves de privacidade. Nossos experimentos mostram evidências de colapso de privacidade em seis modelos (de código fechado e aberto), cinco conjuntos de dados de ajuste fino (dados do mundo real e controlados) e duas categorias de tarefas (agênticas e baseadas em memória). Nossa análise mecanicista revela que as representações de privacidade são singularmente frágeis ao ajuste fino, em comparação com características relevantes para a tarefa, que são preservadas. Nossos resultados revelam uma lacuna crítica nas avaliações de segurança atuais, em particular para a implantação de agentes especializados.

English

We identify a novel phenomenon in language models: benign fine-tuning of frontier models can lead to privacy collapse. We find that diverse, subtle patterns in training data can degrade contextual privacy, including optimisation for helpfulness, exposure to user information, emotional and subjective dialogue, and debugging code printing internal variables, among others. Fine-tuned models lose their ability to reason about contextual privacy norms, share information inappropriately with tools, and violate memory boundaries across contexts. Privacy collapse is a ``silent failure'' because models maintain high performance on standard safety and utility benchmarks whilst exhibiting severe privacy vulnerabilities. Our experiments show evidence of privacy collapse across six models (closed and open weight), five fine-tuning datasets (real-world and controlled data), and two task categories (agentic and memory-based). Our mechanistic analysis reveals that privacy representations are uniquely fragile to fine-tuning, compared to task-relevant features which are preserved. Our results reveal a critical gap in current safety evaluations, in particular for the deployment of specialised agents.

Colapso da Privacidade: Ajuste Fino Benigno Pode Quebrar a Privacidade Contextual em Modelos de Linguagem

Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models

Resumo

Support