Integridade Contextual em LLMs por meio de Raciocínio e Aprendizado por Reforço

Resumo

À medida que a era dos agentes autônomos tomando decisões em nome dos usuários se desenrola, garantir a integridade contextual (IC) -- ou seja, quais informações são apropriadas para compartilhar ao realizar uma determinada tarefa -- torna-se uma questão central para o campo. Propomos que a IC exige uma forma de raciocínio em que o agente precisa refletir sobre o contexto em que está operando. Para testar isso, primeiro solicitamos que modelos de linguagem de grande escala (LLMs) raciocinem explicitamente sobre a IC ao decidir quais informações divulgar. Em seguida, estendemos essa abordagem desenvolvendo um framework de aprendizado por reforço (RL) que instila ainda mais nos modelos o raciocínio necessário para alcançar a IC. Usando um conjunto de dados sintético, criado automaticamente, com apenas 700 exemplos, mas com contextos diversos e normas de divulgação de informações, mostramos que nosso método reduz substancialmente a divulgação inadequada de informações, mantendo o desempenho da tarefa em vários tamanhos e famílias de modelos. Importante, as melhorias se transferem desse conjunto de dados sintético para benchmarks estabelecidos de IC, como o PrivacyLens, que possui anotações humanas e avalia o vazamento de privacidade de assistentes de IA em ações e chamadas de ferramentas.

English

As the era of autonomous agents making decisions on behalf of users unfolds, ensuring contextual integrity (CI) -- what is the appropriate information to share while carrying out a certain task -- becomes a central question to the field. We posit that CI demands a form of reasoning where the agent needs to reason about the context in which it is operating. To test this, we first prompt LLMs to reason explicitly about CI when deciding what information to disclose. We then extend this approach by developing a reinforcement learning (RL) framework that further instills in models the reasoning necessary to achieve CI. Using a synthetic, automatically created, dataset of only sim700 examples but with diverse contexts and information disclosure norms, we show that our method substantially reduces inappropriate information disclosure while maintaining task performance across multiple model sizes and families. Importantly, improvements transfer from this synthetic dataset to established CI benchmarks such as PrivacyLens that has human annotations and evaluates privacy leakage of AI assistants in actions and tool calls.

Integridade Contextual em LLMs por meio de Raciocínio e Aprendizado por Reforço

Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

Resumo

Support