Самоэволюция по текущей политике посредством траекторий неудач для согласования безопасности агентных систем

Аннотация

Агенты на основе LLM, использующие инструменты, терпят неудачу из-за траекторий, а не только итоговых ответов: они могут совершать небезопасные вызовы инструментов, следовать внедрённым инструкциям, соглашаться с вредоносными запросами или чрезмерно отказываться от безвредных задач, несмотря на внешне безопасный ответ. Существующие сигналы выравнивания безопасности в основном относятся к уровню ответов или являются офф-полиси и часто влекут за собой компромисс между безопасностью и полезностью: повышение безопасности агента достигается ценой ухудшения производительности задачи. Такие разреженные и одноцелевые награды существенно ограничивают практическую применимость. Для устранения этого разрыва мы предлагаем FATE — саморазвивающуюся структуру он-полиси, которая преобразует неудачи, оценённые верификатором, в супервизию по исправлению без демонстраций экспертов. Для каждой неудачи та же политика предлагает кандидаты на исправление, которые затем повторно оцениваются верификаторами и фильтруются по безопасности, полезности, контролю чрезмерных отказов и валидности траектории. Эта плотная информация на уровне траекторий затем используется как сигнал супервизии для саморазвития агента. В ходе этого процесса мы дополнительно вводим оптимизацию политики на основе фронта Парето (PFPO), сочетающую контролируемый разогрев с оптимизацией политики, учитывающей Парето, для сохранения компромиссов между безопасностью и полезностью. Эксперименты на AgentDojo, AgentHarm и ATBench показывают, что FATE улучшает безопасность для разных моделей и масштабов, сохраняя полезное поведение. По сравнению с сильными базовыми линиями FATE снижает уровень успешности атак на 33,5%, вредоносное послушание — на 82,6% и улучшает внешнюю диагностику безопасности траекторий на 6,5%. Эти результаты показывают, что неудачные траектории могут обеспечить структурированную супервизию по исправлению для более безопасных саморазвивающихся агентов.

English

Tool-using LLM agents fail through trajectories rather than only final responses, as they may execute unsafe tool calls, follow injected instructions, comply with harmful requests, or over-refuse benign tasks despite producing a seemingly safe answer. Existing safety-alignment signals are largely response-level or off-policy, and often incur a safety-utility trade-off: improving agent safety comes at the cost of degraded task performance. Such sparse and single-objective rewards severely limit real-world usability. To bridge this gap, we propose FATE, an on-policy self-evolving framework that transforms verifier-scored failures into repair supervision without expert demonstrations. For each failure, the same policy proposes repair candidates, which are then re-scored by verifiers and filtered across security, utility, over-refusal control, and trajectory validity. This dense trajectory-level information is then used as a supervision signal for agent self-evolution. During this process, we further introduce Pareto-Front Policy Optimization (PFPO), combining supervised warmup with Pareto-aware policy optimization to preserve safety-utility trade-offs. Experiments on AgentDojo, AgentHarm, and ATBench show that FATE improves safety across different models and scales while preserving useful behavior. Compared with strong baselines, FATE reduces attack success rate by 33.5%, harmful compliance by 82.6%, and improves external trajectory-safety diagnosis by 6.5%. These results suggest that failed trajectories can provide structured repair supervision for safer self-evolving agents.

Самоэволюция по текущей политике посредством траекторий неудач для согласования безопасности агентных систем

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

Аннотация

Support