Leren Wanneer te Handelen of Weigeren: Het Beveiligen van Agentische Redeneermodellen voor Veilig Meerstaps Gebruik van Hulpmiddelen

Samenvatting

Agentische taalmodellen opereren in een fundamenteel ander veiligheidsregime dan chatmodellen: zij moeten plannen, tools aanroepen en acties met een lange tijdshorizon uitvoeren, waarbij een enkele misstap, zoals het openen van bestanden of het invoeren van inloggegevens, onomkeerbare schade kan veroorzaken. Bestaande afstemmingsmethoden, grotendeels geoptimaliseerd voor statische generatie en taakvoltooiing, falen in deze settings door sequentiële besluitvorming, adversariële toolfeedback en overmoedige tussentijdse redenering. Wij introduceren MOSAIC, een post-training raamwerk dat agenten afstemt voor veilig multi-step toolgebruik door veiligheidsbeslissingen expliciet en leerbaar te maken. MOSAIC structureert inferentie als een plan, controleer, handel dan of weiger-lus, met expliciete veiligheidsredenering en weigering als eersteklas acties. Om te trainen zonder labels op trajectniveau gebruiken we op voorkeuren gebaseerde reinforcement learning met gepaarde trajectvergelijkingen, die veiligheidsonderscheidingen vastlegt die vaak worden gemist door scalaire beloningen. Wij evalueren MOSAIC zero-shot over drie modelfamilies, Qwen2.5-7B, Qwen3-4B-Thinking en Phi-4, en over out-of-distribution benchmarks die schadelijke taken, promptinjectie, goedaardig toolgebruik en privacylekken over domeinen heen omvatten. MOSAIC vermindert schadelijk gedrag tot 50%, verhoogt de weigering van schadelijke taken met meer dan 20% bij injectieaanvallen, vermindert privacylekken en behoudt of verbetert de prestaties bij goedaardige taken, wat robuuste generalisatie aantoont over modellen, domeinen en agentische settings heen.

English

Agentic language models operate in a fundamentally different safety regime than chat models: they must plan, call tools, and execute long-horizon actions where a single misstep, such as accessing files or entering credentials, can cause irreversible harm. Existing alignment methods, largely optimized for static generation and task completion, break down in these settings due to sequential decision-making, adversarial tool feedback, and overconfident intermediate reasoning. We introduce MOSAIC, a post-training framework that aligns agents for safe multi-step tool use by making safety decisions explicit and learnable. MOSAIC structures inference as a plan, check, then act or refuse loop, with explicit safety reasoning and refusal as first-class actions. To train without trajectory-level labels, we use preference-based reinforcement learning with pairwise trajectory comparisons, which captures safety distinctions often missed by scalar rewards. We evaluate MOSAIC zero-shot across three model families, Qwen2.5-7B, Qwen3-4B-Thinking, and Phi-4, and across out-of-distribution benchmarks spanning harmful tasks, prompt injection, benign tool use, and cross-domain privacy leakage. MOSAIC reduces harmful behavior by up to 50%, increases harmful-task refusal by over 20% on injection attacks, cuts privacy leakage, and preserves or improves benign task performance, demonstrating robust generalization across models, domains, and agentic settings.

Leren Wanneer te Handelen of Weigeren: Het Beveiligen van Agentische Redeneermodellen voor Veilig Meerstaps Gebruik van Hulpmiddelen

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Samenvatting

Support