Lernen, wann zu handeln oder abzulehnen ist: Absicherung agentenbasierter Reasoning-Modelle für sichere mehrstufige Werkzeugnutzung

Zusammenfassung

Agentische Sprachmodelle operieren in einem grundlegend anderen Sicherheitsregime als Chat-Modelle: Sie müssen planen, Werkzeuge aufrufen und langfristige Aktionen ausführen, bei denen bereits ein einziger Fehltritt – wie der Zugriff auf Dateien oder die Eingabe von Anmeldedaten – irreparablen Schaden verursachen kann. Bestehende Alignment-Methoden, die weitgehend für statische Generierung und Aufgabenabschluss optimiert sind, versagen in diesen Szenarien aufgrund sequenzieller Entscheidungsfindung, adversarieller Werkzeugrückmeldungen und übermütiger Zwischenargumentation. Wir stellen MOSAIC vor, ein Post-Training-Framework, das Agenten für die sichere Nutzung von Werkzeugen in mehreren Schritten aligniert, indem es Sicherheitsentscheidungen explizit und erlernbar macht. MOSAIC strukturiert den Inferenzprozess als einen Planen-Prüfen-Dann-Handeln-oder-Verweigern-Zyklus, mit expliziter Sicherheitsabwägung und Verweigerung als gleichberechtigte Aktionen. Für das Training ohne Trajektorien-Labels verwenden wir präferenzbasiertes Reinforcement Learning mit paarweisen Trajektorienvergleichen, das Sicherheitsunterschiede erfasst, die von skalaren Belohnungssignalen oft übersehen werden. Wir evaluieren MOSAIC Zero-Shot über drei Modellfamilien hinweg – Qwen2.5-7B, Qwen3-4B-Thinking und Phi-4 – sowie über Out-of-Distribution-Benchmarks, die schädliche Aufgaben, Prompt-Injection, harmlose Werkzeugnutzung und domänenübergreifende Datenschutzlecks abdecken. MOSAIC reduziert schädliches Verhalten um bis zu 50 %, steigert die Verweigerung schädlicher Aufgaben bei Injectionsangriffen um über 20 %, verringert Datenschutzlecks und erhält oder verbessert die Leistung bei harmlosen Aufgaben, was eine robuste Generalisierung über Modelle, Domänen und agentische Settings hinweg demonstriert.

English

Agentic language models operate in a fundamentally different safety regime than chat models: they must plan, call tools, and execute long-horizon actions where a single misstep, such as accessing files or entering credentials, can cause irreversible harm. Existing alignment methods, largely optimized for static generation and task completion, break down in these settings due to sequential decision-making, adversarial tool feedback, and overconfident intermediate reasoning. We introduce MOSAIC, a post-training framework that aligns agents for safe multi-step tool use by making safety decisions explicit and learnable. MOSAIC structures inference as a plan, check, then act or refuse loop, with explicit safety reasoning and refusal as first-class actions. To train without trajectory-level labels, we use preference-based reinforcement learning with pairwise trajectory comparisons, which captures safety distinctions often missed by scalar rewards. We evaluate MOSAIC zero-shot across three model families, Qwen2.5-7B, Qwen3-4B-Thinking, and Phi-4, and across out-of-distribution benchmarks spanning harmful tasks, prompt injection, benign tool use, and cross-domain privacy leakage. MOSAIC reduces harmful behavior by up to 50%, increases harmful-task refusal by over 20% on injection attacks, cuts privacy leakage, and preserves or improves benign task performance, demonstrating robust generalization across models, domains, and agentic settings.

Lernen, wann zu handeln oder abzulehnen ist: Absicherung agentenbasierter Reasoning-Modelle für sichere mehrstufige Werkzeugnutzung

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Zusammenfassung

Support