プライバシーの崩壊:良性ファインチューニングが言語モデルの文脈的プライバシーを破壊する可能性
Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models
January 21, 2026
著者: Anmol Goel, Cornelius Emde, Sangdoo Yun, Seong Joon Oh, Martin Gubri
cs.AI
要旨
我々は、フロンティアモデルの良性ファインチューニングがプライバシー崩壊を引き起こし得るという、言語モデルにおける新規現象を特定した。トレーニングデータに含まれる多様で微妙なパターン——有用性の最適化、ユーザー情報への曝露、感情的かつ主観的な対話、内部変数を出力するデバッグコードなど——が、文脈に応じたプライバシーを劣化させうることを発見した。ファインチューニングされたモデルは、文脈に応じたプライバシー規範を推論する能力を失い、ツールに対して不適切に情報を共有し、異なる文脈間でメモリ境界を侵害する。プライバシー崩壊は「サイレント・フェイリア」である。なぜなら、モデルは標準的な安全性・有用性ベンチマークでは高い性能を維持しながらも、深刻なプライバシーの脆弱性を示すからである。我々の実験は、6つのモデル(クローズド/オープンウェイト)、5つのファインチューニングデータセット(実世界データと制御データ)、2つのタスクカテゴリ(エージェント型と記憶ベース)にわたって、プライバシー崩壊の証拠を示している。機構的分析により、タスク関連の特徴が保持されるのに対し、プライバシー表現はファインチューニングに対して特異的に脆弱であることが明らかになった。本研究の結果は、特に専門的なエージェントの展開において、現在の安全性評価に重大なギャップが存在することを示唆している。
English
We identify a novel phenomenon in language models: benign fine-tuning of frontier models can lead to privacy collapse. We find that diverse, subtle patterns in training data can degrade contextual privacy, including optimisation for helpfulness, exposure to user information, emotional and subjective dialogue, and debugging code printing internal variables, among others. Fine-tuned models lose their ability to reason about contextual privacy norms, share information inappropriately with tools, and violate memory boundaries across contexts. Privacy collapse is a ``silent failure'' because models maintain high performance on standard safety and utility benchmarks whilst exhibiting severe privacy vulnerabilities. Our experiments show evidence of privacy collapse across six models (closed and open weight), five fine-tuning datasets (real-world and controlled data), and two task categories (agentic and memory-based). Our mechanistic analysis reveals that privacy representations are uniquely fragile to fine-tuning, compared to task-relevant features which are preserved. Our results reveal a critical gap in current safety evaluations, in particular for the deployment of specialised agents.