ChatPaper.aiChatPaper

汎用エージェントシステムの基盤ガードレール構築に向けた 合成データの活用

Building a Foundational Guardrail for General Agentic Systems via Synthetic Data

October 10, 2025
著者: Yue Huang, Hang Hua, Yujun Zhou, Pengcheng Jing, Manish Nagireddy, Inkit Padhi, Greta Dolcetti, Zhangchen Xu, Subhajit Chaudhury, Ambrish Rawat, Liubov Nedoshivina, Pin-Yu Chen, Prasanna Sattigeri, Xiangliang Zhang
cs.AI

要旨

LLMエージェントは多段階のタスクを計画できますが、行動が実行される前の計画段階で介入することが、多くの場合、危害を防ぐ最も安全な方法です。なぜなら、特定のリスクは一度実行されると深刻な結果を招く可能性があるからです。しかし、既存のガードレールは主に実行後に作用するため、スケーリングが難しく、計画レベルでの制御可能な監督の余地がほとんどありません。この課題に対処するため、我々は現在の研究における3つの重要なギャップを指摘します:データギャップ、モデルギャップ、評価ギャップです。データギャップを埋めるために、我々はAuraGenを導入します。これは、(i)良性の軌跡を合成し、(ii)難易度を調整したカテゴリラベル付きリスクを注入し、(iii)自動化された報酬モデルを通じて出力をフィルタリングし、実行前の安全性のための大規模で信頼性の高いコーパスを生成する制御可能なエンジンです。ガーディアンモデルギャップを埋めるために、我々はSafironを提案します。これは、クロスプランナーアダプターとコンパクトなガーディアンモデルを組み合わせた基礎的なガードレールです。アダプターは異なる入力形式を統一し、Safironはリスクのあるケースをフラグ付けし、リスクタイプを割り当て、根拠を生成します。広く探索されたデータレシピで2段階でトレーニングされたSafironは、設定間での堅牢な転移を実現します。評価ギャップを埋めるために、我々はPre-Exec Benchをリリースします。これは、多様なツールと分岐する軌跡をカバーする現実的なベンチマークで、人間が検証したシナリオにおける検出、細粒度の分類、説明、クロスプランナー一般化を測定します。大規模な実験により、Pre-Exec Benchにおいて提案されたガードレールが強力なベースラインを一貫して上回ることが示され、アブレーション研究を通じて実践的な指針が得られ、より安全なエージェントシステムのための実用的なテンプレートを提供します。
English
While LLM agents can plan multi-step tasks, intervening at the planning stage-before any action is executed-is often the safest way to prevent harm, since certain risks can lead to severe consequences once carried out. However, existing guardrails mostly operate post-execution, which is difficult to scale and leaves little room for controllable supervision at the plan level. To address this challenge, we highlight three critical gaps in current research: data gap, model gap, and evaluation gap. To close the data gap, we introduce AuraGen, a controllable engine that (i) synthesizes benign trajectories, (ii) injects category-labeled risks with calibrated difficulty, and (iii) filters outputs via an automated reward model, producing large and reliable corpora for pre-execution safety. To close the guardian model gap, we propose a foundational guardrail Safiron, combining a cross-planner adapter with a compact guardian model. The adapter unifies different input formats, while Safiron flags risky cases, assigns risk types, and generates rationales; trained in two stages with a broadly explored data recipe, Safiron achieves robust transfer across settings. To close the evaluation gap, we release Pre-Exec Bench, a realistic benchmark covering diverse tools and branching trajectories, which measures detection, fine-grained categorization, explanation, and cross-planner generalization in human-verified scenarios. Extensive experiments demonstrate consistent gains of the proposed guardrail over strong baselines on Pre-Exec Bench, and ablations further distill actionable practices, providing a practical template for safer agentic systems.
PDF262October 14, 2025