¿Tienes un secreto? Los agentes LLM no pueden guardarlo: Evaluando la privacidad en sistemas multiagente

Resumen

Las evaluaciones de seguridad de los LLM prueban predominantemente los modelos de forma aislada, sin embargo, los agentes de IA desplegados operan cada vez más en entornos sociales persistentes junto con otros agentes. Introducimos una plataforma de simulación estilo Moltbook donde miles de agentes LLM interactúan a través de comunidades durante un mes simulado, y la utilizamos para evaluar la privacidad como una preocupación de seguridad descendente bajo distintos grados de presión social. Encontramos que pasar de una evaluación social de un solo turno a múltiples turnos amplifica las violaciones de privacidad (CIMemories 19,95% a Ours 45,30% en modelos de OpenAI), que las filtraciones son socialmente contagiosas, con agentes 8 veces más propensos a divulgar información sensible después de observar a un par hacerlo, y que las instrucciones explícitas de privacidad reducen pero no eliminan este efecto, dejando tasas de filtración por encima del 37,8% incluso con salvaguardas. Nuestros hallazgos sugieren que los puntos de referencia de seguridad estáticos basados en chat subestiman sistemáticamente los riesgos en el despliegue agencial, y que el contexto social por sí solo es suficiente para provocar divulgaciones sensibles que las evaluaciones de un solo turno nunca sacarían a la luz.

English

LLM safety evaluations predominantly test models in isolation, yet deployed AI agents increasingly operate within persistent social environments alongside other agents. We introduce a Moltbook-style simulation platform where thousands of LLM agents interact across communities over a simulated month, and use it to evaluate privacy as a downstream safety concern under varying degrees of social pressure. We find that shifting from single turn to multi turn social evaluation amplifies privacy violations (CIMemories 19.95% to Ours 45.30% across OpenAI models), that leakage is socially contagious, with agents 8 times more likely to disclose sensitive information after observing a peer do so, and that explicit privacy instructions reduce but do not eliminate this effect, leaving leakage rates above 37.8% even with safeguards. Our findings suggest that static chat based safety benchmarks systematically underestimate risks in agentic deployment, and that social context alone is sufficient to elicit sensitive disclosures that single turn evaluations would never surface.