La brecha de seguridad en el arranque en frío de los agentes de LLM

Resumen

¿Son los agentes LLM que invocan herramientas igualmente seguros a lo largo de una conversación? Descubrimos que no: los agentes son más vulnerables al inicio de una sesión y se vuelven sustancialmente más seguros después de realizar algunas tareas agentivas regulares, un fenómeno que denominamos brecha de seguridad de arranque en frío. Para estudiarlo sistemáticamente, presentamos Safety Over Depth for Agents (SODA), un punto de referencia que controla cuántas tareas agentivas regulares completa el agente antes de enfrentar una amenaza de seguridad, admitiendo hasta 20 tareas previas. Al evaluar 7 modelos de 4 familias, la seguridad mejora entre un 9 y un 52% a medida que el número de tareas agentivas regulares previas aumenta de cero a veinte. El análisis de representaciones confirma que los estados ocultos del modelo se desplazan gradualmente hacia una región alineada con la seguridad a medida que hay más tareas previas. Al estudiar sistemáticamente qué parte de la conversación previa es más relevante, encontramos que las propias tareas agentivas regulares son el principal impulsor de la seguridad, mientras que las respuestas previas del agente tienen menos efecto en la seguridad pero son esenciales para preservar la utilidad posterior. Esta conclusión se respalda con la evaluación en puntos de referencia de seguridad de código abierto (AgentHarm, Agent Safety Bench) y puntos de referencia de utilidad (BFCL, API-Bank), confirmando que calentar al agente con tareas agentivas regulares antes del despliegue lo hace más seguro y preserva su capacidad completa. Basándonos en estos hallazgos, recomendamos una estrategia de despliegue simple: hacer que el agente complete algunas tareas agentivas regulares antes de una posible exposición a solicitudes críticas para la seguridad mitiga la brecha de seguridad de arranque en frío. Nuestro código está disponible en https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap.

English

Are tool-calling LLM agents equally safe throughout a conversation? We discover they are not: agents are most vulnerable at the very start of a session and become substantially safer after a few regular agentic tasks -- a phenomenon we term the cold-start safety gap. To study this systematically, we introduce Safety Over Depth for Agents (SODA), a benchmark that controls how many regular agentic tasks the agent completes before encountering a safety threat, supporting up to 20 preceding tasks. Evaluating 7 models from 4 families, safety improves by 9--52% as the number of preceding regular agentic tasks increases from zero to twenty. Representation analysis confirms that model hidden states gradually shift toward a safety-aligned region as more preceding tasks are present. By systematically studying which part of the preceding conversation matters most, we find that the regular agentic tasks themselves are the primary driver of safety, while the agent's own prior responses have less effect on safety but are essential for preserving later utility. This conclusion is further supported by evaluation on open-source safety benchmarks (AgentHarm, Agent Safety Bench) and utility benchmarks (BFCL, API-Bank), confirming that warming up the agent with regular agentic tasks before deployment makes it safer and preserves full capability. Based on these findings, we recommend a simple deployment strategy: having the agent complete a few regular agentic tasks before possible exposure to safety-critical requests mitigates the cold-start safety gap. Our code is available at https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap