Integrità Contestuale nei LLM tramite Ragionamento e Apprendimento per Rinforzo
Contextual Integrity in LLMs via Reasoning and Reinforcement Learning
May 29, 2025
Autori: Guangchen Lan, Huseyin A. Inan, Sahar Abdelnabi, Janardhan Kulkarni, Lukas Wutschitz, Reza Shokri, Christopher G. Brinton, Robert Sim
cs.AI
Abstract
Mentre si apre l'era degli agenti autonomi che prendono decisioni per conto degli utenti, garantire l'integrità contestuale (CI) -- ovvero quali informazioni siano appropriate condividere durante lo svolgimento di un determinato compito -- diventa una questione centrale nel campo. Proponiamo che la CI richieda una forma di ragionamento in cui l'agente debba considerare il contesto in cui opera. Per testare questa ipotesi, iniziamo sollecitando i modelli linguistici di grandi dimensioni (LLM) a ragionare esplicitamente sulla CI quando decidono quali informazioni divulgare. Successivamente, estendiamo questo approccio sviluppando un framework di apprendimento per rinforzo (RL) che rafforza nei modelli il ragionamento necessario per raggiungere la CI. Utilizzando un dataset sintetico, creato automaticamente, composto da soli 700 esempi ma con contesti e norme di divulgazione delle informazioni diversificati, dimostriamo che il nostro metodo riduce sostanzialmente la divulgazione inappropriata di informazioni mantenendo al contempo le prestazioni del compito su diverse dimensioni e famiglie di modelli. È importante sottolineare che i miglioramenti si trasferiscono da questo dataset sintetico a benchmark consolidati di CI come PrivacyLens, che dispone di annotazioni umane e valuta la perdita di privacy degli assistenti AI nelle azioni e nelle chiamate agli strumenti.
English
As the era of autonomous agents making decisions on behalf of users unfolds,
ensuring contextual integrity (CI) -- what is the appropriate information to
share while carrying out a certain task -- becomes a central question to the
field. We posit that CI demands a form of reasoning where the agent needs to
reason about the context in which it is operating. To test this, we first
prompt LLMs to reason explicitly about CI when deciding what information to
disclose. We then extend this approach by developing a reinforcement learning
(RL) framework that further instills in models the reasoning necessary to
achieve CI. Using a synthetic, automatically created, dataset of only sim700
examples but with diverse contexts and information disclosure norms, we show
that our method substantially reduces inappropriate information disclosure
while maintaining task performance across multiple model sizes and families.
Importantly, improvements transfer from this synthetic dataset to established
CI benchmarks such as PrivacyLens that has human annotations and evaluates
privacy leakage of AI assistants in actions and tool calls.