Tem um segredo? Agentes LLM não conseguem guardá-lo: Avaliando a Privacidade em Sistemas Multiagentes

Resumo

Avaliações de segurança de LLMs testam modelos predominantemente de forma isolada, porém agentes de IA implantados operam cada vez mais em ambientes sociais persistentes junto com outros agentes. Introduzimos uma plataforma de simulação no estilo Moltbook, onde milhares de agentes LLM interagem entre comunidades ao longo de um mês simulado, e a utilizamos para avaliar privacidade como uma preocupação de segurança downstream sob diferentes graus de pressão social. Constatamos que a transição de avaliação social de turno único para multiturno amplifica violações de privacidade (CIMemories 19,95% para Nossa 45,30% entre modelos OpenAI), que o vazamento é socialmente contagioso, com agentes 8 vezes mais propensos a divulgar informações sensíveis após observar um par fazê-lo, e que instruções explícitas de privacidade reduzem, mas não eliminam esse efeito, deixando taxas de vazamento acima de 37,8% mesmo com salvaguardas. Nossos achados sugerem que benchmarks de segurança baseados em chat estático subestimam sistematicamente riscos em implantações agentivas, e que o contexto social por si só é suficiente para elicitar divulgações sensíveis que avaliações de turno único jamais revelariam.

English

LLM safety evaluations predominantly test models in isolation, yet deployed AI agents increasingly operate within persistent social environments alongside other agents. We introduce a Moltbook-style simulation platform where thousands of LLM agents interact across communities over a simulated month, and use it to evaluate privacy as a downstream safety concern under varying degrees of social pressure. We find that shifting from single turn to multi turn social evaluation amplifies privacy violations (CIMemories 19.95% to Ours 45.30% across OpenAI models), that leakage is socially contagious, with agents 8 times more likely to disclose sensitive information after observing a peer do so, and that explicit privacy instructions reduce but do not eliminate this effect, leaving leakage rates above 37.8% even with safeguards. Our findings suggest that static chat based safety benchmarks systematically underestimate risks in agentic deployment, and that social context alone is sufficient to elicit sensitive disclosures that single turn evaluations would never surface.