ChatPaper.aiChatPaper

Construindo uma Barreira de Segurança Fundamental para Sistemas de Agentes Gerais por meio de Dados Sintéticos

Building a Foundational Guardrail for General Agentic Systems via Synthetic Data

October 10, 2025
Autores: Yue Huang, Hang Hua, Yujun Zhou, Pengcheng Jing, Manish Nagireddy, Inkit Padhi, Greta Dolcetti, Zhangchen Xu, Subhajit Chaudhury, Ambrish Rawat, Liubov Nedoshivina, Pin-Yu Chen, Prasanna Sattigeri, Xiangliang Zhang
cs.AI

Resumo

Embora agentes de LLM possam planejar tarefas de múltiplas etapas, intervir na fase de planejamento — antes que qualquer ação seja executada — é frequentemente a maneira mais segura de evitar danos, já que certos riscos podem levar a consequências graves uma vez realizados. No entanto, as salvaguardas existentes operam principalmente pós-execução, o que é difícil de escalar e deixa pouco espaço para supervisão controlável no nível do plano. Para enfrentar esse desafio, destacamos três lacunas críticas na pesquisa atual: lacuna de dados, lacuna de modelo e lacuna de avaliação. Para fechar a lacuna de dados, introduzimos o AuraGen, um motor controlável que (i) sintetiza trajetórias benignas, (ii) injeta riscos rotulados por categoria com dificuldade calibrada e (iii) filtra saídas por meio de um modelo de recompensa automatizado, produzindo grandes e confiáveis corpora para segurança pré-execução. Para fechar a lacuna do modelo guardião, propomos uma salvaguarda fundamental, o Safiron, combinando um adaptador de planejamento cruzado com um modelo guardião compacto. O adaptador unifica diferentes formatos de entrada, enquanto o Safiron sinaliza casos de risco, atribui tipos de risco e gera justificativas; treinado em duas etapas com uma receita de dados amplamente explorada, o Safiron alcança transferência robusta entre configurações. Para fechar a lacuna de avaliação, lançamos o Pre-Exec Bench, um benchmark realista que abrange diversas ferramentas e trajetórias ramificadas, medindo detecção, categorização refinada, explicação e generalização entre planejadores em cenários verificados por humanos. Experimentos extensivos demonstram ganhos consistentes da salvaguarda proposta sobre linhas de base fortes no Pre-Exec Bench, e as ablações ainda destilam práticas acionáveis, fornecendo um modelo prático para sistemas agentes mais seguros.
English
While LLM agents can plan multi-step tasks, intervening at the planning stage-before any action is executed-is often the safest way to prevent harm, since certain risks can lead to severe consequences once carried out. However, existing guardrails mostly operate post-execution, which is difficult to scale and leaves little room for controllable supervision at the plan level. To address this challenge, we highlight three critical gaps in current research: data gap, model gap, and evaluation gap. To close the data gap, we introduce AuraGen, a controllable engine that (i) synthesizes benign trajectories, (ii) injects category-labeled risks with calibrated difficulty, and (iii) filters outputs via an automated reward model, producing large and reliable corpora for pre-execution safety. To close the guardian model gap, we propose a foundational guardrail Safiron, combining a cross-planner adapter with a compact guardian model. The adapter unifies different input formats, while Safiron flags risky cases, assigns risk types, and generates rationales; trained in two stages with a broadly explored data recipe, Safiron achieves robust transfer across settings. To close the evaluation gap, we release Pre-Exec Bench, a realistic benchmark covering diverse tools and branching trajectories, which measures detection, fine-grained categorization, explanation, and cross-planner generalization in human-verified scenarios. Extensive experiments demonstrate consistent gains of the proposed guardrail over strong baselines on Pre-Exec Bench, and ablations further distill actionable practices, providing a practical template for safer agentic systems.
PDF262October 14, 2025