Integridade Contextual em LLMs por meio de Raciocínio e Aprendizado por Reforço
Contextual Integrity in LLMs via Reasoning and Reinforcement Learning
May 29, 2025
Autores: Guangchen Lan, Huseyin A. Inan, Sahar Abdelnabi, Janardhan Kulkarni, Lukas Wutschitz, Reza Shokri, Christopher G. Brinton, Robert Sim
cs.AI
Resumo
À medida que a era dos agentes autônomos tomando decisões em nome dos usuários se desenrola, garantir a integridade contextual (IC) -- ou seja, quais informações são apropriadas para compartilhar ao realizar uma determinada tarefa -- torna-se uma questão central para o campo. Propomos que a IC exige uma forma de raciocínio em que o agente precisa refletir sobre o contexto em que está operando. Para testar isso, primeiro solicitamos que modelos de linguagem de grande escala (LLMs) raciocinem explicitamente sobre a IC ao decidir quais informações divulgar. Em seguida, estendemos essa abordagem desenvolvendo um framework de aprendizado por reforço (RL) que instila ainda mais nos modelos o raciocínio necessário para alcançar a IC. Usando um conjunto de dados sintético, criado automaticamente, com apenas 700 exemplos, mas com contextos diversos e normas de divulgação de informações, mostramos que nosso método reduz substancialmente a divulgação inadequada de informações, mantendo o desempenho da tarefa em vários tamanhos e famílias de modelos. Importante, as melhorias se transferem desse conjunto de dados sintético para benchmarks estabelecidos de IC, como o PrivacyLens, que possui anotações humanas e avalia o vazamento de privacidade de assistentes de IA em ações e chamadas de ferramentas.
English
As the era of autonomous agents making decisions on behalf of users unfolds,
ensuring contextual integrity (CI) -- what is the appropriate information to
share while carrying out a certain task -- becomes a central question to the
field. We posit that CI demands a form of reasoning where the agent needs to
reason about the context in which it is operating. To test this, we first
prompt LLMs to reason explicitly about CI when deciding what information to
disclose. We then extend this approach by developing a reinforcement learning
(RL) framework that further instills in models the reasoning necessary to
achieve CI. Using a synthetic, automatically created, dataset of only sim700
examples but with diverse contexts and information disclosure norms, we show
that our method substantially reduces inappropriate information disclosure
while maintaining task performance across multiple model sizes and families.
Importantly, improvements transfer from this synthetic dataset to established
CI benchmarks such as PrivacyLens that has human annotations and evaluates
privacy leakage of AI assistants in actions and tool calls.