エージェント推論モデルの安全な多段階ツール利用のための防護:行動すべき時と拒否すべき時の学習
Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use
March 3, 2026
著者: Aradhye Agarwal, Gurdit Siyan, Yash Pandya, Joykirat Singh, Akshay Nambi, Ahmed Awadallah
cs.AI
要旨
エージェンシック言語モデルは、チャットモデルとは根本的に異なる安全性の体制で動作する。それらは計画を立て、ツールを呼び出し、長期的なアクションを実行する必要があり、ファイルへのアクセスや認証情報の入力といった単一の誤ったステップが取り返しのつかない損害を引き起こす可能性がある。主に静的な生成とタスク完了のために最適化されてきた既存のアライメント手法は、逐次的意思決定、敵対的ツールフィードバック、過信気味な中間推論により、これらの設定では機能不全に陥る。本論文では、安全性の判断を明示的かつ学習可能にすることで、安全な多段階ツール利用のためのエージェントを調整する学習後フレームワークであるMOSAICを提案する。MOSAICは、推論を「計画、チェック、その後実行または拒否」のループとして構造化し、明示的な安全性推論と拒否を第一級のアクションとして扱う。軌道レベルのラベルなしで学習するため、スカラー報酬では見落とされがちな安全性の区別を捉える、ペアワイズ軌道比較に基づく選好強化学習を用いる。我々はMOSAICを、Qwen2.5-7B、Qwen3-4B-Thinking、Phi-4の3つのモデルファミリーにわたってゼロショット評価し、有害タスク、プロンプトインジェクション、良性ツール使用、クロスドメインのプライバシー漏洩にまたがる分布外ベンチマークで検証した。MOSAICは有害な行動を最大50%削減し、インジェクション攻撃に対する有害タスクの拒否率を20%以上向上させ、プライバシー漏洩を削減し、良性タスクの性能を維持または改善し、モデル、ドメイン、エージェンシック設定にわたる頑健な汎化能力を示した。
English
Agentic language models operate in a fundamentally different safety regime than chat models: they must plan, call tools, and execute long-horizon actions where a single misstep, such as accessing files or entering credentials, can cause irreversible harm. Existing alignment methods, largely optimized for static generation and task completion, break down in these settings due to sequential decision-making, adversarial tool feedback, and overconfident intermediate reasoning. We introduce MOSAIC, a post-training framework that aligns agents for safe multi-step tool use by making safety decisions explicit and learnable. MOSAIC structures inference as a plan, check, then act or refuse loop, with explicit safety reasoning and refusal as first-class actions. To train without trajectory-level labels, we use preference-based reinforcement learning with pairwise trajectory comparisons, which captures safety distinctions often missed by scalar rewards. We evaluate MOSAIC zero-shot across three model families, Qwen2.5-7B, Qwen3-4B-Thinking, and Phi-4, and across out-of-distribution benchmarks spanning harmful tasks, prompt injection, benign tool use, and cross-domain privacy leakage. MOSAIC reduces harmful behavior by up to 50%, increases harmful-task refusal by over 20% on injection attacks, cuts privacy leakage, and preserves or improves benign task performance, demonstrating robust generalization across models, domains, and agentic settings.