Integrità Contestuale nei LLM tramite Ragionamento e Apprendimento per Rinforzo

Abstract

Mentre si apre l'era degli agenti autonomi che prendono decisioni per conto degli utenti, garantire l'integrità contestuale (CI) -- ovvero quali informazioni siano appropriate condividere durante lo svolgimento di un determinato compito -- diventa una questione centrale nel campo. Proponiamo che la CI richieda una forma di ragionamento in cui l'agente debba considerare il contesto in cui opera. Per testare questa ipotesi, iniziamo sollecitando i modelli linguistici di grandi dimensioni (LLM) a ragionare esplicitamente sulla CI quando decidono quali informazioni divulgare. Successivamente, estendiamo questo approccio sviluppando un framework di apprendimento per rinforzo (RL) che rafforza nei modelli il ragionamento necessario per raggiungere la CI. Utilizzando un dataset sintetico, creato automaticamente, composto da soli 700 esempi ma con contesti e norme di divulgazione delle informazioni diversificati, dimostriamo che il nostro metodo riduce sostanzialmente la divulgazione inappropriata di informazioni mantenendo al contempo le prestazioni del compito su diverse dimensioni e famiglie di modelli. È importante sottolineare che i miglioramenti si trasferiscono da questo dataset sintetico a benchmark consolidati di CI come PrivacyLens, che dispone di annotazioni umane e valuta la perdita di privacy degli assistenti AI nelle azioni e nelle chiamate agli strumenti.

English

As the era of autonomous agents making decisions on behalf of users unfolds, ensuring contextual integrity (CI) -- what is the appropriate information to share while carrying out a certain task -- becomes a central question to the field. We posit that CI demands a form of reasoning where the agent needs to reason about the context in which it is operating. To test this, we first prompt LLMs to reason explicitly about CI when deciding what information to disclose. We then extend this approach by developing a reinforcement learning (RL) framework that further instills in models the reasoning necessary to achieve CI. Using a synthetic, automatically created, dataset of only sim700 examples but with diverse contexts and information disclosure norms, we show that our method substantially reduces inappropriate information disclosure while maintaining task performance across multiple model sizes and families. Importantly, improvements transfer from this synthetic dataset to established CI benchmarks such as PrivacyLens that has human annotations and evaluates privacy leakage of AI assistants in actions and tool calls.

Integrità Contestuale nei LLM tramite Ragionamento e Apprendimento per Rinforzo

Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

Abstract

Support