Twee zijn er nodig: complementaire zelfdestillatie voor contextuele integriteit in LLMs

Samenvatting

Contextuele Integriteit (CI) definieert privacy niet louter als het verbergen van informatie, maar als het reguleren van informatiestromen volgens de normen van een bepaalde context. Naarmate grote taalmodellen steeds vaker worden ingezet als persoonlijke agenten die gevoelige werkstromen afhandelen, wordt het naleven van CI cruciaal. Zelfs de meest geavanceerde modellen blijven echter onbetrouwbaar bij het nemen van openbaarmakingsbeslissingen, en bestaande mitigatiestrategieën tasten vaak de onderliggende taakprestaties aan. Om deze privacy-nut afweging te overbruggen, stellen we SELFCI voor, een complementair zelf-distillatiekader dat informatieonderdrukking ontkoppelt van taakoplossing. SELFCI optimaliseert gezamenlijk twee onafhankelijke omgekeerde KL-divergenties over verschillende leraarverdelingen die zijn afgeleid van feedback: de ene stimuleert het behouden van taakrelevante informatie voor nut, terwijl de andere een minimale en passende openbaarmaking afdwingt. Deze complementaire formulering leidt tot een Product of Experts (PoE)-doelstelling, die het beleid afstemt op het snijvlak van bekwaamheids- en privacyvereisten. Empirische evaluaties tonen aan dat SELFCI, zonder afhankelijk te zijn van kostbare externe supervisie, consistent beter presteert dan competitieve basislijnen zoals online reinforcement learning-algoritmen (bijv. GRPO). Deze trends strekken zich verder uit tot domeinoverstijgende instellingen waarbij agentische werkstromen en geaccumuleerde privécontext betrokken zijn, wat suggereert dat SELFCI een praktische weg biedt naar CI-afstemming.

English

Contextual Integrity (CI) defines privacy not merely as keeping information hidden, but as governing information flows according to the norms of a given context. As large language models are increasingly deployed as personal agents handling sensitive workflows, adhering to CI becomes critical. However, even frontier models remain unreliable in making disclosure decisions, and existing mitigation strategies often degrade underlying task performance. To overcome this privacy-utility trade-off, we propose SELFCI, a complementary self-distillation framework that decouples information suppression from task resolution. SELFCI jointly optimizes two independent reverse KL divergences over distinct teacher distributions derived from feedback: one encourages preserving task-relevant information for utility, while the other enforces minimal and appropriate disclosure. This complementary formulation induces a Product-of-Experts (PoE) target, aligning the policy with the intersection of capability and privacy requirements. Empirical evaluations demonstrate that SELFCI, without relying on costly external supervision, consistently outperforms competitive baselines such as online reinforcement learning algorithms (e.g., GRPO). These trends further extend to out-of-domain settings involving agentic workflows and accumulated private context, suggesting that SELFCI provides a practical path toward CI alignment.