Colapso de la Privacidad: El Ajuste Fino Benigno Puede Quebrar la Privacidad Contextual en Modelos de Lenguaje
Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models
January 21, 2026
Autores: Anmol Goel, Cornelius Emde, Sangdoo Yun, Seong Joon Oh, Martin Gubri
cs.AI
Resumen
Identificamos un fenómeno novedoso en los modelos de lenguaje: el ajuste fino benigno de modelos de vanguardia puede provocar un colapso de la privacidad. Descubrimos que diversos patrones sutiles en los datos de entrenamiento pueden degradar la privacidad contextual, incluyendo la optimización para la utilidad, la exposición a información del usuario, diálogos emocionales y subjetivos, y la depuración de código que imprime variables internas, entre otros. Los modelos ajustados pierden su capacidad para razonar sobre las normas de privacidad contextual, comparten información de forma inapropiada con herramientas y violan los límites de memoria entre contextos. El colapso de la privacidad es un "fallo silencioso" porque los modelos mantienen un alto rendimiento en los puntos de referencia estándar de seguridad y utilidad mientras exhiben graves vulnerabilidades de privacidad. Nuestros experimentos muestran evidencia de colapso de la privacidad en seis modelos (de pesos abiertos y cerrados), cinco conjuntos de datos de ajuste fino (datos del mundo real y controlados) y dos categorías de tareas (de agente y basadas en memoria). Nuestro análisis mecanicista revela que las representaciones de privacidad son singularmente frágiles al ajuste fino, en comparación con las características relevantes para la tarea que se preservan. Nuestros resultados revelan una brecha crítica en las evaluaciones de seguridad actuales, en particular para el despliegue de agentes especializados.
English
We identify a novel phenomenon in language models: benign fine-tuning of frontier models can lead to privacy collapse. We find that diverse, subtle patterns in training data can degrade contextual privacy, including optimisation for helpfulness, exposure to user information, emotional and subjective dialogue, and debugging code printing internal variables, among others. Fine-tuned models lose their ability to reason about contextual privacy norms, share information inappropriately with tools, and violate memory boundaries across contexts. Privacy collapse is a ``silent failure'' because models maintain high performance on standard safety and utility benchmarks whilst exhibiting severe privacy vulnerabilities. Our experiments show evidence of privacy collapse across six models (closed and open weight), five fine-tuning datasets (real-world and controlled data), and two task categories (agentic and memory-based). Our mechanistic analysis reveals that privacy representations are uniquely fragile to fine-tuning, compared to task-relevant features which are preserved. Our results reveal a critical gap in current safety evaluations, in particular for the deployment of specialised agents.