ChatPaper.aiChatPaper

Intégrité contextuelle dans les LLM via raisonnement et apprentissage par renforcement

Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

May 29, 2025
Auteurs: Guangchen Lan, Huseyin A. Inan, Sahar Abdelnabi, Janardhan Kulkarni, Lukas Wutschitz, Reza Shokri, Christopher G. Brinton, Robert Sim
cs.AI

Résumé

Alors que l'ère des agents autonomes prenant des décisions au nom des utilisateurs se déploie, la question de l'intégrité contextuelle (IC) — c'est-à-dire quelles informations sont appropriées à partager lors de l'exécution d'une tâche donnée — devient centrale dans ce domaine. Nous postulons que l'IC exige une forme de raisonnement où l'agent doit évaluer le contexte dans lequel il opère. Pour tester cette hypothèse, nous incitons d'abord les modèles de langage (LLMs) à raisonner explicitement sur l'IC lorsqu'ils décident quelles informations divulguer. Nous étendons ensuite cette approche en développant un cadre d'apprentissage par renforcement (RL) qui inculque davantage aux modèles le raisonnement nécessaire pour atteindre l'IC. En utilisant un ensemble de données synthétique, généré automatiquement, comprenant seulement 700 exemples mais avec des contextes variés et des normes de divulgation d'informations diversifiées, nous montrons que notre méthode réduit considérablement les divulgations inappropriées tout en maintenant la performance des tâches pour différentes tailles et familles de modèles. Fait important, les améliorations se transfèrent de cet ensemble de données synthétique à des benchmarks établis en IC, tels que PrivacyLens, qui incluent des annotations humaines et évaluent les fuites de confidentialité des assistants IA dans leurs actions et appels d'outils.
English
As the era of autonomous agents making decisions on behalf of users unfolds, ensuring contextual integrity (CI) -- what is the appropriate information to share while carrying out a certain task -- becomes a central question to the field. We posit that CI demands a form of reasoning where the agent needs to reason about the context in which it is operating. To test this, we first prompt LLMs to reason explicitly about CI when deciding what information to disclose. We then extend this approach by developing a reinforcement learning (RL) framework that further instills in models the reasoning necessary to achieve CI. Using a synthetic, automatically created, dataset of only sim700 examples but with diverse contexts and information disclosure norms, we show that our method substantially reduces inappropriate information disclosure while maintaining task performance across multiple model sizes and families. Importantly, improvements transfer from this synthetic dataset to established CI benchmarks such as PrivacyLens that has human annotations and evaluates privacy leakage of AI assistants in actions and tool calls.
PDF41June 6, 2025