On-Policy-Selbstevolution durch Fehlertrajektorien für die agentische Sicherheitsausrichtung

Zusammenfassung

Werkzeugnutzende LLM-Agenten scheitern eher an ihren Abläufen (Trajektorien) als nur an ihren endgültigen Antworten, da sie unsichere Tool-Aufrufe ausführen, eingeschleuste Anweisungen befolgen, schädlichen Anfragen nachkommen oder harmlose Aufgaben übermäßig verweigern können – selbst wenn sie eine scheinbar sichere Antwort liefern. Bisherige Sicherheitsausrichtungssignale sind weitgehend Antwortsignale oder Off-Policy-Signale und gehen oft mit einem Sicherheits-Nutzen-Kompromiss einher: Die Verbesserung der Agentensicherheit geht zu Lasten der Aufgabenleistung. Diese sporadischen und einzieligen Belohnungen schränken die praktische Einsetzbarkeit stark ein. Um diese Lücke zu schließen, schlagen wir FATE vor, ein On-Policy-selbstentwickelndes Framework, das von Verifikatoren bewertete Fehlschläge in Reparatur-Überwachung umwandelt, ohne auf Expertenbeispiele angewiesen zu sein. Für jeden Fehlschlag schlägt dieselbe Richtlinie Reparaturkandidaten vor, die anschließend von Verifikatoren neu bewertet und nach Sicherheit, Nutzen, Kontrolle übermäßiger Verweigerung und Gültigkeit der Trajektorie gefiltert werden. Diese dichten, auf der Trajektoriebene angesiedelten Informationen werden dann als Überwachungssignal für die Selbstentwicklung des Agenten genutzt. In diesem Prozess führen wir außerdem die Pareto-Front-Policy-Optimierung (PFPO) ein, die eine überwachte Aufwärmphase mit einer Pareto-bewussten Richtlinienoptimierung kombiniert, um den Sicherheits-Nutzen-Kompromiss zu wahren. Experimente auf AgentDojo, AgentHarm und ATBench zeigen, dass FATE die Sicherheit über verschiedene Modelle und Skalen hinweg verbessert und dabei nützliches Verhalten bewahrt. Im Vergleich zu starken Basislinien senkt FATE die Angriffserfolgsrate um 33,5 %, die schädliche Befolgung um 82,6 % und verbessert die externe Trajektorien-Sicherheitsdiagnose um 6,5 %. Diese Ergebnisse deuten darauf hin, dass fehlgeschlagene Trajektorien eine strukturierte Reparatur-Überwachung für sicherere selbstentwickelnde Agenten bieten können.

English

Tool-using LLM agents fail through trajectories rather than only final responses, as they may execute unsafe tool calls, follow injected instructions, comply with harmful requests, or over-refuse benign tasks despite producing a seemingly safe answer. Existing safety-alignment signals are largely response-level or off-policy, and often incur a safety-utility trade-off: improving agent safety comes at the cost of degraded task performance. Such sparse and single-objective rewards severely limit real-world usability. To bridge this gap, we propose FATE, an on-policy self-evolving framework that transforms verifier-scored failures into repair supervision without expert demonstrations. For each failure, the same policy proposes repair candidates, which are then re-scored by verifiers and filtered across security, utility, over-refusal control, and trajectory validity. This dense trajectory-level information is then used as a supervision signal for agent self-evolution. During this process, we further introduce Pareto-Front Policy Optimization (PFPO), combining supervised warmup with Pareto-aware policy optimization to preserve safety-utility trade-offs. Experiments on AgentDojo, AgentHarm, and ATBench show that FATE improves safety across different models and scales while preserving useful behavior. Compared with strong baselines, FATE reduces attack success rate by 33.5%, harmful compliance by 82.6%, and improves external trajectory-safety diagnosis by 6.5%. These results suggest that failed trajectories can provide structured repair supervision for safer self-evolving agents.

On-Policy-Selbstevolution durch Fehlertrajektorien für die agentische Sicherheitsausrichtung

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

Zusammenfassung

Support