Apprendre quand agir ou refuser : Protéger les modèles de raisonnement agentiel pour une utilisation sécurisée d'outils en plusieurs étapes

Résumé

Les modèles de langage agentiques opèrent dans un régime de sécurité fondamentalement différent de celui des modèles de conversation : ils doivent planifier, utiliser des outils et exécuter des actions à long terme où une seule erreur, comme l'accès à des fichiers ou la saisie d'identifiants, peut causer des dommages irréversibles. Les méthodes d'alignement existantes, largement optimisées pour la génération statique et l'accomplissement de tâches, échouent dans ces contextes en raison de la prise de décision séquentielle, des retours d'outils adversariaux et du raisonnement intermédiaire trop confiant. Nous présentons MOSAIC, un cadre post-entraînement qui aligne les agents pour une utilisation sécurisée d'outils en plusieurs étapes en rendant les décisions de sécurité explicites et apprenables. MOSAIC structure l'inférence selon une boucle planifier, vérifier, puis agir ou refuser, avec un raisonnement explicite sur la sécurité et le refus comme actions de premier ordre. Pour l'entraînement sans étiquettes au niveau des trajectoires, nous utilisons un apprentissage par renforcement basé sur les préférences avec des comparaisons par paires de trajectoires, qui capture les distinctions de sécurité souvent manquées par les récompenses scalaires. Nous évaluons MOSAIC en zero-shot sur trois familles de modèles, Qwen2.5-7B, Qwen3-4B-Thinking et Phi-4, et sur des benchmarks hors distribution couvrant des tâches nuisibles, l'injection de prompt, l'utilisation bénigne d'outils et les fuites de confidentialité inter-domaines. MOSAIC réduit les comportements nuisibles jusqu'à 50%, augmente le refus de tâches nuisibles de plus de 20% sur les attaques par injection, réduit les fuites de confidentialité et préserve ou améliore les performances sur les tâches bénignes, démontrant une généralisation robuste across les modèles, domaines et contextes agentiques.

English

Agentic language models operate in a fundamentally different safety regime than chat models: they must plan, call tools, and execute long-horizon actions where a single misstep, such as accessing files or entering credentials, can cause irreversible harm. Existing alignment methods, largely optimized for static generation and task completion, break down in these settings due to sequential decision-making, adversarial tool feedback, and overconfident intermediate reasoning. We introduce MOSAIC, a post-training framework that aligns agents for safe multi-step tool use by making safety decisions explicit and learnable. MOSAIC structures inference as a plan, check, then act or refuse loop, with explicit safety reasoning and refusal as first-class actions. To train without trajectory-level labels, we use preference-based reinforcement learning with pairwise trajectory comparisons, which captures safety distinctions often missed by scalar rewards. We evaluate MOSAIC zero-shot across three model families, Qwen2.5-7B, Qwen3-4B-Thinking, and Phi-4, and across out-of-distribution benchmarks spanning harmful tasks, prompt injection, benign tool use, and cross-domain privacy leakage. MOSAIC reduces harmful behavior by up to 50%, increases harmful-task refusal by over 20% on injection attacks, cuts privacy leakage, and preserves or improves benign task performance, demonstrating robust generalization across models, domains, and agentic settings.

Apprendre quand agir ou refuser : Protéger les modèles de raisonnement agentiel pour une utilisation sécurisée d'outils en plusieurs étapes

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Résumé

Support