Обучение принятию решений о действии или отказе: Защита агентных моделей рассуждений для безопасного многошагового использования инструментов
Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use
March 3, 2026
Авторы: Aradhye Agarwal, Gurdit Siyan, Yash Pandya, Joykirat Singh, Akshay Nambi, Ahmed Awadallah
cs.AI
Аннотация
Агентные языковые модели функционируют в принципиально ином режиме безопасности по сравнению с чат-моделями: они должны планировать, вызывать инструменты и выполнять долгосрочные действия, где единственная ошибка, такая как доступ к файлам или ввод учетных данных, может привести к необратимому ущербу. Существующие методы согласования, в основном оптимизированные для статической генерации и выполнения задач, не работают в этих условиях из-за последовательного принятия решений, враждебной обратной связи от инструментов и излишне уверенных промежуточных рассуждений. Мы представляем MOSAIC — посттренировочный фреймворк, который согласовывает агентов для безопасного использования инструментов в несколько шагов, делая решения по безопасности явными и обучаемыми. MOSAIC структурирует вывод как цикл «планируй, проверяй, затем действуй или отказывайся», с явными рассуждениями о безопасности и отказом как действиями первого класса. Для обучения без меток на уровне траекторий мы используем обучение с подкреплением на основе предпочтений с попарным сравнением траекторий, что позволяет улавливать различия в безопасности, часто упускаемые скалярными вознаграждениями. Мы оцениваем MOSAIC в режиме zero-shot на трех семействах моделей — Qwen2.5-7B, Qwen3-4B-Thinking и Phi-4 — и на различных бенчмарках, включающих вредоносные задачи, инъекции в промпты, добросовестное использование инструментов и междоменную утечку конфиденциальности. MOSAIC снижает вредоносное поведение до 50%, увеличивает отказ от вредоносных задач более чем на 20% при инъекционных атаках, сокращает утечку конфиденциальности и сохраняет или улучшает производительность на добросовестных задачах, демонстрируя robustную обобщающую способность across моделями, доменами и агентными сценариями.
English
Agentic language models operate in a fundamentally different safety regime than chat models: they must plan, call tools, and execute long-horizon actions where a single misstep, such as accessing files or entering credentials, can cause irreversible harm. Existing alignment methods, largely optimized for static generation and task completion, break down in these settings due to sequential decision-making, adversarial tool feedback, and overconfident intermediate reasoning. We introduce MOSAIC, a post-training framework that aligns agents for safe multi-step tool use by making safety decisions explicit and learnable. MOSAIC structures inference as a plan, check, then act or refuse loop, with explicit safety reasoning and refusal as first-class actions. To train without trajectory-level labels, we use preference-based reinforcement learning with pairwise trajectory comparisons, which captures safety distinctions often missed by scalar rewards. We evaluate MOSAIC zero-shot across three model families, Qwen2.5-7B, Qwen3-4B-Thinking, and Phi-4, and across out-of-distribution benchmarks spanning harmful tasks, prompt injection, benign tool use, and cross-domain privacy leakage. MOSAIC reduces harmful behavior by up to 50%, increases harmful-task refusal by over 20% on injection attacks, cuts privacy leakage, and preserves or improves benign task performance, demonstrating robust generalization across models, domains, and agentic settings.