Se Necesitan Dos: Autodestilación Complementaria para la Integridad Contextual en los LLMs

Resumen

La Integridad Contextual (IC) define la privacidad no simplemente como la ocultación de información, sino como la regulación de los flujos de información de acuerdo con las normas de un contexto determinado. A medida que los modelos de lenguaje grandes se implementan cada vez más como agentes personales que manejan flujos de trabajo sensibles, la adhesión a la IC se vuelve crítica. Sin embargo, incluso los modelos de frontera siguen siendo poco fiables en las decisiones de divulgación, y las estrategias de mitigación existentes a menudo degradan el rendimiento de la tarea subyacente. Para superar esta compensación entre privacidad y utilidad, proponemos SELFCI, un marco complementario de autodestilación que desacopla la supresión de información de la resolución de tareas. SELFCI optimiza conjuntamente dos divergencias KL inversas independientes sobre distribuciones de profesor distintas derivadas de la retroalimentación: una fomenta la preservación de información relevante para la tarea en aras de la utilidad, mientras que la otra impone una divulgación mínima y adecuada. Esta formulación complementaria induce un objetivo de Producto de Expertos (PoE), alineando la política con la intersección de los requisitos de capacidad y privacidad. Las evaluaciones empíricas demuestran que SELFCI, sin depender de una supervisión externa costosa, supera consistentemente a líneas base competitivas como los algoritmos de aprendizaje por refuerzo en línea (por ejemplo, GRPO). Estas tendencias se extienden además a entornos fuera de dominio que involucran flujos de trabajo agentivos y contexto privado acumulado, lo que sugiere que SELFCI proporciona un camino práctico hacia la alineación con la IC.

English

Contextual Integrity (CI) defines privacy not merely as keeping information hidden, but as governing information flows according to the norms of a given context. As large language models are increasingly deployed as personal agents handling sensitive workflows, adhering to CI becomes critical. However, even frontier models remain unreliable in making disclosure decisions, and existing mitigation strategies often degrade underlying task performance. To overcome this privacy-utility trade-off, we propose SELFCI, a complementary self-distillation framework that decouples information suppression from task resolution. SELFCI jointly optimizes two independent reverse KL divergences over distinct teacher distributions derived from feedback: one encourages preserving task-relevant information for utility, while the other enforces minimal and appropriate disclosure. This complementary formulation induces a Product-of-Experts (PoE) target, aligning the policy with the intersection of capability and privacy requirements. Empirical evaluations demonstrate that SELFCI, without relying on costly external supervision, consistently outperforms competitive baselines such as online reinforcement learning algorithms (e.g., GRPO). These trends further extend to out-of-domain settings involving agentic workflows and accumulated private context, suggesting that SELFCI provides a practical path toward CI alignment.