Die Cold-Start-Sicherheitslücke in LLM-Agenten

Zusammenfassung

Sind LLM-Agenten mit Werkzeugaufruf während eines gesamten Gesprächs gleichermaßen sicher? Wir stellen fest: Das ist nicht der Fall – Agenten sind zu Beginn einer Sitzung am verwundbarsten und werden nach einigen regulären agentischen Aufgaben deutlich sicherer. Dieses Phänomen bezeichnen wir als **Kaltstart-Sicherheitslücke** (engl. _cold-start safety gap_). Zur systematischen Untersuchung führen wir **Safety Over Depth for Agents (SODA)** ein, einen Benchmark, der kontrolliert, wie viele reguläre agentische Aufgaben ein Agent vor dem Auftreten einer Sicherheitsbedrohung absolviert – mit bis zu 20 vorangehenden Aufgaben. Bei der Evaluierung von 7 Modellen aus 4 Familien verbessert sich die Sicherheit um 9–52 %, wenn die Anzahl der vorangehenden regulären agentischen Aufgaben von null auf zwanzig steigt. Eine Repräsentationsanalyse bestätigt, dass sich die versteckten Zustände der Modelle mit zunehmender Anzahl vorangehender Aufgaben allmählich in einen sicherheitsausgerichteten Bereich verschieben. Durch die systematische Untersuchung, welcher Teil des vorangehenden Gesprächs am relevantesten ist, zeigen wir, dass die regulären agentischen Aufgaben selbst der Haupttreiber der Sicherheit sind, während die eigenen vorherigen Antworten des Agenten einen geringeren Einfluss auf die Sicherheit haben, jedoch für die spätere Nützlichkeit essenziell sind. Diese Schlussfolgerung wird durch Evaluierungen auf Open-Source-Sicherheitsbenchmarks (AgentHarm, Agent Safety Bench) und Nützlichkeitsbenchmarks (BFCL, API-Bank) untermauert, die bestätigen, dass das Aufwärmen des Agenten mit regulären agentischen Aufgaben vor dem Einsatz ihn sicherer macht und seine volle Funktionsfähigkeit erhält. Basierend auf diesen Erkenntnissen empfehlen wir eine einfache Einsatzstrategie: den Agenten einige reguläre agentische Aufgaben absolvieren zu lassen, bevor er sicherheitskritischen Anfragen ausgesetzt wird, um die Kaltstart-Sicherheitslücke zu schließen. Unser Code ist verfügbar unter https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap.

English

Are tool-calling LLM agents equally safe throughout a conversation? We discover they are not: agents are most vulnerable at the very start of a session and become substantially safer after a few regular agentic tasks -- a phenomenon we term the cold-start safety gap. To study this systematically, we introduce Safety Over Depth for Agents (SODA), a benchmark that controls how many regular agentic tasks the agent completes before encountering a safety threat, supporting up to 20 preceding tasks. Evaluating 7 models from 4 families, safety improves by 9--52% as the number of preceding regular agentic tasks increases from zero to twenty. Representation analysis confirms that model hidden states gradually shift toward a safety-aligned region as more preceding tasks are present. By systematically studying which part of the preceding conversation matters most, we find that the regular agentic tasks themselves are the primary driver of safety, while the agent's own prior responses have less effect on safety but are essential for preserving later utility. This conclusion is further supported by evaluation on open-source safety benchmarks (AgentHarm, Agent Safety Bench) and utility benchmarks (BFCL, API-Bank), confirming that warming up the agent with regular agentic tasks before deployment makes it safer and preserves full capability. Based on these findings, we recommend a simple deployment strategy: having the agent complete a few regular agentic tasks before possible exposure to safety-critical requests mitigates the cold-start safety gap. Our code is available at https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap