Il faut être deux : auto-distillation complémentaire pour l'intégrité contextuelle dans les LLMs

Résumé

L'Intégrité Contextuelle (IC) définit la vie privée non pas simplement comme le fait de garder l'information cachée, mais comme la régulation des flux d'information conformément aux normes d'un contexte donné. Alors que les grands modèles de langage sont de plus en plus déployés en tant qu'agents personnels traitant des flux de travail sensibles, le respect de l'IC devient crucial. Cependant, même les modèles de pointe restent peu fiables dans leurs décisions de divulgation, et les stratégies d'atténuation existantes dégradent souvent les performances de la tâche sous-jacente. Pour surmonter ce compromis entre vie privée et utilité, nous proposons SELFCI, un cadre complémentaire d'auto-distillation qui dissocie la suppression d'informations de la résolution de tâche. SELFCI optimise conjointement deux divergences KL inverses indépendantes sur des distributions d'enseignants distinctes dérivées du retour d'information : l'une encourage la préservation des informations pertinentes à la tâche pour l'utilité, tandis que l'autre impose une divulgation minimale et appropriée. Cette formulation complémentaire induit une cible de type Produit d'Experts (PdE), alignant la politique sur l'intersection des exigences de capacité et de confidentialité. Les évaluations empiriques montrent que SELFCI, sans recourir à une supervision externe coûteuse, surpasse systématiquement les bases de référence concurrentes telles que les algorithmes d'apprentissage par renforcement en ligne (par exemple, GRPO). Ces tendances s'étendent également à des contextes hors domaine impliquant des flux de travail agentiques et un contexte privé accumulé, suggérant que SELFCI offre une voie pratique vers l'alignement avec l'IC.

English

Contextual Integrity (CI) defines privacy not merely as keeping information hidden, but as governing information flows according to the norms of a given context. As large language models are increasingly deployed as personal agents handling sensitive workflows, adhering to CI becomes critical. However, even frontier models remain unreliable in making disclosure decisions, and existing mitigation strategies often degrade underlying task performance. To overcome this privacy-utility trade-off, we propose SELFCI, a complementary self-distillation framework that decouples information suppression from task resolution. SELFCI jointly optimizes two independent reverse KL divergences over distinct teacher distributions derived from feedback: one encourages preserving task-relevant information for utility, while the other enforces minimal and appropriate disclosure. This complementary formulation induces a Product-of-Experts (PoE) target, aligning the policy with the intersection of capability and privacy requirements. Empirical evaluations demonstrate that SELFCI, without relying on costly external supervision, consistently outperforms competitive baselines such as online reinforcement learning algorithms (e.g., GRPO). These trends further extend to out-of-domain settings involving agentic workflows and accumulated private context, suggesting that SELFCI provides a practical path toward CI alignment.