ChatPaper.aiChatPaper

**프라이버시 붕괴: 양성 미세 조정이 언어 모델의 맥락적 프라이버시를 무너뜨릴 수 있다**

Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models

January 21, 2026
저자: Anmol Goel, Cornelius Emde, Sangdoo Yun, Seong Joon Oh, Martin Gubri
cs.AI

초록

우리는 언어 모델에서 새로운 현상을 확인했습니다: 첨단 모델의 양성 미세조정이 프라이버시 붕괴로 이어질 수 있다는 점입니다. 우리는 훈련 데이터에 존재하는 다양하고 미묘한 패턴들이 맥락적 프라이버시를 저하시킬 수 있음을 발견했는데, 이에는 도움성 최적화, 사용자 정보 노출, 정서적 및 주관적 대화, 내부 변수를 출력하는 코드 디버깅 등이 포함됩니다. 미세조정된 모델은 맥락적 프라이버시 규범에 대한 추론 능력을 상실하고, 도구와 부적절하게 정보를 공유하며, 다양한 맥락 간 메모리 경계를 위반합니다. 프라이버시 붕괴는 '침묵적 실패'에 해당하는데, 이는 모델이 심각한 프라이버시 취약점을 보이면서도 표준 안전성 및 유용성 벤치마크에서는 높은 성능을 유지하기 때문입니다. 우리의 실험은 6개 모델(폐쇄형 및 오픈 가중치), 5개 미세조정 데이터셋(실제 및 통제 데이터), 2개 작업 범주(에이전트 기반 및 메모리 기반)에 걸쳐 프라이버시 붕괴 증거를 보여줍니다. 우리의 메커니즘 분석은 프라이버시 표현이 보존되는 작업 관련 특징과 비교해 미세조정에 특히 취약함을 밝혀냅니다. 우리의 결과는 특히 전문화된 에이전트 배포를 위한 현재 안전성 평가의 중대한 간극을 드러냅니다.
English
We identify a novel phenomenon in language models: benign fine-tuning of frontier models can lead to privacy collapse. We find that diverse, subtle patterns in training data can degrade contextual privacy, including optimisation for helpfulness, exposure to user information, emotional and subjective dialogue, and debugging code printing internal variables, among others. Fine-tuned models lose their ability to reason about contextual privacy norms, share information inappropriately with tools, and violate memory boundaries across contexts. Privacy collapse is a ``silent failure'' because models maintain high performance on standard safety and utility benchmarks whilst exhibiting severe privacy vulnerabilities. Our experiments show evidence of privacy collapse across six models (closed and open weight), five fine-tuning datasets (real-world and controlled data), and two task categories (agentic and memory-based). Our mechanistic analysis reveals that privacy representations are uniquely fragile to fine-tuning, compared to task-relevant features which are preserved. Our results reveal a critical gap in current safety evaluations, in particular for the deployment of specialised agents.
PDF61January 23, 2026