Есть секрет? LLM-агенты не умеют хранить тайны: оценка конфиденциальности в многоагентных системах

Аннотация

Оценки безопасности LLM преимущественно тестируют модели в изоляции, однако развернутые ИИ-агенты все чаще действуют в устойчивых социальных средах вместе с другими агентами. Мы представляем симуляционную платформу в стиле Moltbook, где тысячи LLM-агентов взаимодействуют в сообществах в течение смоделированного месяца, и используем ее для оценки конфиденциальности как последующей проблемы безопасности в условиях разной степени социального давления. Мы обнаружили, что переход от одношаговой к многошаговой социальной оценке усиливает нарушения конфиденциальности (CIMemories 19.95% до Ours 45.30% для моделей OpenAI), что утечка является социально заразной, причем агенты в 8 раз чаще раскрывают конфиденциальную информацию после наблюдения за таким действием сверстника, и что явные инструкции по конфиденциальности уменьшают, но не устраняют этот эффект, оставляя уровень утечки выше 37,8% даже при наличии средств защиты. Наши результаты показывают, что статические чат-ориентированные бенчмарки безопасности систематически недооценивают риски при развертывании агентов, и что одного социального контекста достаточно для получения конфиденциальных раскрытий, которые одношаговые оценки никогда бы не выявили.

English

LLM safety evaluations predominantly test models in isolation, yet deployed AI agents increasingly operate within persistent social environments alongside other agents. We introduce a Moltbook-style simulation platform where thousands of LLM agents interact across communities over a simulated month, and use it to evaluate privacy as a downstream safety concern under varying degrees of social pressure. We find that shifting from single turn to multi turn social evaluation amplifies privacy violations (CIMemories 19.95% to Ours 45.30% across OpenAI models), that leakage is socially contagious, with agents 8 times more likely to disclose sensitive information after observing a peer do so, and that explicit privacy instructions reduce but do not eliminate this effect, leaving leakage rates above 37.8% even with safeguards. Our findings suggest that static chat based safety benchmarks systematically underestimate risks in agentic deployment, and that social context alone is sufficient to elicit sensitive disclosures that single turn evaluations would never surface.