Пробел безопасности холодного старта в LLM-агентах

Аннотация

Одинаково ли безопасны LLM-агенты с вызовом инструментов на протяжении всего диалога? Мы обнаружили, что нет: агенты наиболее уязвимы в самом начале сессии и становятся значительно безопаснее после выполнения нескольких обычных агентских задач — этот феномен мы называем разрывом безопасности холодного старта. Для систематического исследования этого явления мы вводим бенчмарк Safety Over Depth for Agents (SODA), который контролирует количество обычных агентских задач, выполняемых агентом до столкновения с угрозой безопасности, поддерживая до 20 предшествующих задач. При оценке 7 моделей из 4 семейств безопасность улучшается на 9–52% по мере увеличения числа предшествующих обычных агентских задач от нуля до двадцати. Анализ представлений подтверждает, что скрытые состояния модели постепенно смещаются в область, согласованную с безопасностью, по мере увеличения количества предшествующих задач. Систематически изучая, какая часть предшествующего разговора наиболее важна, мы обнаруживаем, что именно сами обычные агентские задачи являются основным драйвером безопасности, тогда как собственные предыдущие ответы агента оказывают меньшее влияние на безопасность, но необходимы для сохранения последующей полезности. Этот вывод дополнительно подтверждается оценкой на открытых бенчмарках безопасности (AgentHarm, Agent Safety Bench) и бенчмарках полезности (BFCL, API-Bank), что подтверждает: «прогрев» агента с помощью обычных агентских задач перед развёртыванием делает его безопаснее и сохраняет полную функциональность. На основе этих результатов мы рекомендуем простую стратегию развёртывания: предоставить агенту возможность выполнить несколько обычных агентских задач до потенциального воздействия критически важных запросов безопасности, что позволяет смягчить разрыв безопасности холодного старта. Наш код доступен по адресу https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap.

English

Are tool-calling LLM agents equally safe throughout a conversation? We discover they are not: agents are most vulnerable at the very start of a session and become substantially safer after a few regular agentic tasks -- a phenomenon we term the cold-start safety gap. To study this systematically, we introduce Safety Over Depth for Agents (SODA), a benchmark that controls how many regular agentic tasks the agent completes before encountering a safety threat, supporting up to 20 preceding tasks. Evaluating 7 models from 4 families, safety improves by 9--52% as the number of preceding regular agentic tasks increases from zero to twenty. Representation analysis confirms that model hidden states gradually shift toward a safety-aligned region as more preceding tasks are present. By systematically studying which part of the preceding conversation matters most, we find that the regular agentic tasks themselves are the primary driver of safety, while the agent's own prior responses have less effect on safety but are essential for preserving later utility. This conclusion is further supported by evaluation on open-source safety benchmarks (AgentHarm, Agent Safety Bench) and utility benchmarks (BFCL, API-Bank), confirming that warming up the agent with regular agentic tasks before deployment makes it safer and preserves full capability. Based on these findings, we recommend a simple deployment strategy: having the agent complete a few regular agentic tasks before possible exposure to safety-critical requests mitigates the cold-start safety gap. Our code is available at https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap