二人で成す:LLMにおける文脈整合性のための補完的自己蒸留
It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs
May 18, 2026
著者: Sangwoo Park, Woongyeong Yeo, Seanie Lee, Yumin Choi, Hyomin Lee, Kangsan Kim, Jinheon Baek, Seong Joon Oh, Sung Ju Hwang
cs.AI
要旨
文脈的整合性(CI)とは、プライバシーを単に情報を隠すことではなく、各状況の規範に従って情報の流れを統制するものと定義する。大規模言語モデルが機密性の高いワークフローを扱う個人エージェントとしてますます活用される中で、CIを遵守することは極めて重要となる。しかし、最先端のモデルであっても開示判断の信頼性は依然として低く、既存の緩和戦略では基盤となるタスク性能が低下する場合が多い。このプライバシーと実用性のトレードオフを克服するため、我々はSELFCIを提案する。これは情報の抑制とタスク解決を分離する、相補的な自己蒸留フレームワークである。SELFCIは、フィードバックから得られる異なる教師分布に対して、二つの独立した逆KLダイバージェンスを同時に最適化する。一方はタスクに関連する情報を実用性のために保持するよう促し、他方は最小限で適切な開示を強制する。この相補的な定式化により、製品オブエキスパート(PoE)目標が導かれ、ポリシーを能力とプライバシー要件の共通部分に整合させる。実証評価の結果、SELFCIは高コストな外部監視に依存せず、オンライン強化学習アルゴリズム(例:GRPO)などの競合ベースラインを一貫して上回ることが示された。この傾向は、エージェント的なワークフローや蓄積されたプライベートコンテキストを含む領域外の設定にも拡張され、SELFCIがCI整合に向けた実用的な道筋を提供することを示唆している。
English
Contextual Integrity (CI) defines privacy not merely as keeping information hidden, but as governing information flows according to the norms of a given context. As large language models are increasingly deployed as personal agents handling sensitive workflows, adhering to CI becomes critical. However, even frontier models remain unreliable in making disclosure decisions, and existing mitigation strategies often degrade underlying task performance. To overcome this privacy-utility trade-off, we propose SELFCI, a complementary self-distillation framework that decouples information suppression from task resolution. SELFCI jointly optimizes two independent reverse KL divergences over distinct teacher distributions derived from feedback: one encourages preserving task-relevant information for utility, while the other enforces minimal and appropriate disclosure. This complementary formulation induces a Product-of-Experts (PoE) target, aligning the policy with the intersection of capability and privacy requirements. Empirical evaluations demonstrate that SELFCI, without relying on costly external supervision, consistently outperforms competitive baselines such as online reinforcement learning algorithms (e.g., GRPO). These trends further extend to out-of-domain settings involving agentic workflows and accumulated private context, suggesting that SELFCI provides a practical path toward CI alignment.