Auto-évolution sur politique via les trajectoires d'échec pour l'alignement de sécurité agentique

Résumé

Les agents LLM utilisant des outils échouent non seulement par leurs réponses finales, mais surtout par leurs trajectoires : ils peuvent exécuter des appels d'outils dangereux, suivre des instructions injectées, se conformer à des requêtes nuisibles, ou refuser excessivement des tâches bénignes, tout en produisant une réponse apparemment sûre. Les signaux d'alignement de sécurité existants sont en grande partie au niveau de la réponse ou hors politique, et entraînent souvent un compromis sécurité-utilité : améliorer la sécurité des agents se fait au détriment de la performance des tâches. Ces récompenses clairsemées et mono-objectif limitent sévèrement l'utilisabilité dans le monde réel. Pour combler ce fossé, nous proposons FATE, un cadre d'auto-évolution en politique qui transforme les échecs notés par un vérificateur en supervision de réparation, sans démonstrations d'experts. Pour chaque échec, la même politique propose des candidats de réparation, qui sont ensuite re-notés par des vérificateurs et filtrés selon la sécurité, l'utilité, le contrôle du refus excessif et la validité de la trajectoire. Cette information dense au niveau de la trajectoire est ensuite utilisée comme signal de supervision pour l'auto-évolution de l'agent. Au cours de ce processus, nous introduisons également l'Optimisation de Politique sur le Front de Pareto (PFPO), combinant un échauffement supervisé avec une optimisation de politique consciente de Pareto afin de préserver le compromis sécurité-utilité. Les expériences sur AgentDojo, AgentHarm et ATBench montrent que FATE améliore la sécurité à travers différents modèles et échelles tout en préservant le comportement utile. Comparé à des références solides, FATE réduit le taux de succès des attaques de 33,5%, la conformité nuisible de 82,6%, et améliore le diagnostic externe de sécurité des trajectoires de 6,5%. Ces résultats suggèrent que les trajectoires échouées peuvent fournir une supervision de réparation structurée pour des agents auto-évolutifs plus sûrs.

English

Tool-using LLM agents fail through trajectories rather than only final responses, as they may execute unsafe tool calls, follow injected instructions, comply with harmful requests, or over-refuse benign tasks despite producing a seemingly safe answer. Existing safety-alignment signals are largely response-level or off-policy, and often incur a safety-utility trade-off: improving agent safety comes at the cost of degraded task performance. Such sparse and single-objective rewards severely limit real-world usability. To bridge this gap, we propose FATE, an on-policy self-evolving framework that transforms verifier-scored failures into repair supervision without expert demonstrations. For each failure, the same policy proposes repair candidates, which are then re-scored by verifiers and filtered across security, utility, over-refusal control, and trajectory validity. This dense trajectory-level information is then used as a supervision signal for agent self-evolution. During this process, we further introduce Pareto-Front Policy Optimization (PFPO), combining supervised warmup with Pareto-aware policy optimization to preserve safety-utility trade-offs. Experiments on AgentDojo, AgentHarm, and ATBench show that FATE improves safety across different models and scales while preserving useful behavior. Compared with strong baselines, FATE reduces attack success rate by 33.5%, harmful compliance by 82.6%, and improves external trajectory-safety diagnosis by 6.5%. These results suggest that failed trajectories can provide structured repair supervision for safer self-evolving agents.

Auto-évolution sur politique via les trajectoires d'échec pour l'alignement de sécurité agentique

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

Résumé

Support