Wanneer Lagere Privileges Volstaan: Onderzoek naar Overgeprivilegieerde Toolselectie in LLM-agenten

Samenvatting

Nu LLM-agenten steeds vaker zelfstandig tools selecteren, worden hun keuzes tussen tools met verschillende privileges veiligheidsrelevant. Eerdere onderzoeken naar toolselectie richten zich echter op veiligheidsagnostische metadatavoorkeuren, waardoor privilegegevoelige keuzes onderbelicht blijven. Om deze leemte aan te pakken, bestuderen we overgeprivilegieerde toolselectie, waarbij een agent een tool met hogere privileges selecteert of escaleert, ondanks een voldoende alternatief met lagere privileges. We introduceren ToolPrivBench om te evalueren of agenten tools met hogere privileges kiezen ondanks voldoende alternatieven met lagere privileges, waarbij zowel de initiële selectie als de escalatie na tijdelijke toolstoringen worden gemeten. Over acht domeinen en vijf terugkerende risicopatronen heen zien we dat overgeprivilegieerde toolselectie veelvoorkomend is bij gangbare LLM-agenten en verder wordt versterkt door tijdelijke storingen. We vinden verder dat algemene veiligheidsafstemming niet betrouwbaar overgaat naar toolkeuze met de minste privileges, terwijl aanwijzingen op promptniveau slechts beperkte mitigatie bieden bij tijdelijke storingen. Daarom introduceren we een privilegebewuste post-training-verdediging die agenten leert om de voorkeur te geven aan voldoende tools met lagere privileges en alleen te escaleren wanneer nodig. Onze mitigatie-experimenten tonen aan dat deze verdediging het onnodige gebruik van tools met hoge privileges aanzienlijk vermindert, terwijl algemene capaciteiten behouden blijven.

English

As LLM agents increasingly select tools autonomously, their choices among tools with different privileges become safety-relevant. However, prior tool-selection studies focus on safety-agnostic metadata preferences, leaving privilege-sensitive choices underexplored. To address this gap, we study over-privileged tool selection, in which an agent selects or escalates to a higher-privilege tool despite a sufficient lower-privilege alternative. We introduce ToolPrivBench to evaluate whether agents choose higher-privilege tools despite sufficient lower-privilege alternatives, measuring both initial selection and escalation after transient tool failures. Across eight domains and five recurring risk patterns, we find that over-privileged tool selection is common among mainstream LLM agents and is further amplified by transient failures. We further find that general safety alignment does not reliably transfer to least-privilege tool choice, while prompt-level controls provide only limited mitigation under transient failures. We therefore introduce a privilege-aware post-training defense that teaches agents to prefer sufficient lower-privilege tools and escalate only when necessary. Our mitigation experiments show that this defense substantially reduces unnecessary high-privilege tool use while preserving general capabilities.