Construindo uma Barreira de Segurança Fundamental para Sistemas de Agentes Gerais por meio de Dados Sintéticos

Resumo

Embora agentes de LLM possam planejar tarefas de múltiplas etapas, intervir na fase de planejamento — antes que qualquer ação seja executada — é frequentemente a maneira mais segura de evitar danos, já que certos riscos podem levar a consequências graves uma vez realizados. No entanto, as salvaguardas existentes operam principalmente pós-execução, o que é difícil de escalar e deixa pouco espaço para supervisão controlável no nível do plano. Para enfrentar esse desafio, destacamos três lacunas críticas na pesquisa atual: lacuna de dados, lacuna de modelo e lacuna de avaliação. Para fechar a lacuna de dados, introduzimos o AuraGen, um motor controlável que (i) sintetiza trajetórias benignas, (ii) injeta riscos rotulados por categoria com dificuldade calibrada e (iii) filtra saídas por meio de um modelo de recompensa automatizado, produzindo grandes e confiáveis corpora para segurança pré-execução. Para fechar a lacuna do modelo guardião, propomos uma salvaguarda fundamental, o Safiron, combinando um adaptador de planejamento cruzado com um modelo guardião compacto. O adaptador unifica diferentes formatos de entrada, enquanto o Safiron sinaliza casos de risco, atribui tipos de risco e gera justificativas; treinado em duas etapas com uma receita de dados amplamente explorada, o Safiron alcança transferência robusta entre configurações. Para fechar a lacuna de avaliação, lançamos o Pre-Exec Bench, um benchmark realista que abrange diversas ferramentas e trajetórias ramificadas, medindo detecção, categorização refinada, explicação e generalização entre planejadores em cenários verificados por humanos. Experimentos extensivos demonstram ganhos consistentes da salvaguarda proposta sobre linhas de base fortes no Pre-Exec Bench, e as ablações ainda destilam práticas acionáveis, fornecendo um modelo prático para sistemas agentes mais seguros.

English

While LLM agents can plan multi-step tasks, intervening at the planning stage-before any action is executed-is often the safest way to prevent harm, since certain risks can lead to severe consequences once carried out. However, existing guardrails mostly operate post-execution, which is difficult to scale and leaves little room for controllable supervision at the plan level. To address this challenge, we highlight three critical gaps in current research: data gap, model gap, and evaluation gap. To close the data gap, we introduce AuraGen, a controllable engine that (i) synthesizes benign trajectories, (ii) injects category-labeled risks with calibrated difficulty, and (iii) filters outputs via an automated reward model, producing large and reliable corpora for pre-execution safety. To close the guardian model gap, we propose a foundational guardrail Safiron, combining a cross-planner adapter with a compact guardian model. The adapter unifies different input formats, while Safiron flags risky cases, assigns risk types, and generates rationales; trained in two stages with a broadly explored data recipe, Safiron achieves robust transfer across settings. To close the evaluation gap, we release Pre-Exec Bench, a realistic benchmark covering diverse tools and branching trajectories, which measures detection, fine-grained categorization, explanation, and cross-planner generalization in human-verified scenarios. Extensive experiments demonstrate consistent gains of the proposed guardrail over strong baselines on Pre-Exec Bench, and ablations further distill actionable practices, providing a practical template for safer agentic systems.

Construindo uma Barreira de Segurança Fundamental para Sistemas de Agentes Gerais por meio de Dados Sintéticos

Building a Foundational Guardrail for General Agentic Systems via Synthetic Data

Resumo

Support