Когда меньших привилегий достаточно: исследование выбора инструментов с избыточными привилегиями в LLM-агентах

Аннотация

По мере того как LLM-агенты всё чаще автономно выбирают инструменты, их решения между инструментами с разными привилегиями приобретают значение для безопасности. Однако предыдущие исследования выбора инструментов сосредоточены на метаданных, не учитывающих безопасность, оставляя выбор с учётом привилегий малоизученным. Для восполнения этого пробела мы изучаем выбор инструментов с избыточными привилегиями, при котором агент выбирает или переходит к инструменту с более высокими привилегиями, несмотря на наличие достаточной альтернативы с более низкими привилегиями. Мы представляем ToolPrivBench для оценки того, выбирают ли агенты инструменты с более высокими привилегиями при наличии достаточных альтернатив с более низкими привилегиями, измеряя как начальный выбор, так и эскалацию после временных сбоев инструментов. На восьми доменах и пяти повторяющихся паттернах риска мы обнаруживаем, что выбор инструментов с избыточными привилегиями распространён среди основных LLM-агентов и дополнительно усиливается временными сбоями. Мы также выясняем, что общее согласование безопасности надёжно не переносится на выбор инструментов с минимальными привилегиями, а средства управления на уровне промптов обеспечивают лишь ограниченное смягчение при временных сбоях. Поэтому мы вводим защиту после обучения с учётом привилегий, которая обучает агентов предпочитать достаточные инструменты с низкими привилегиями и переходить к более привилегированным только при необходимости. Наши эксперименты по смягчению показывают, что эта защита существенно снижает неоправданное использование инструментов с высокими привилегиями, сохраняя при этом общие возможности.

English

As LLM agents increasingly select tools autonomously, their choices among tools with different privileges become safety-relevant. However, prior tool-selection studies focus on safety-agnostic metadata preferences, leaving privilege-sensitive choices underexplored. To address this gap, we study over-privileged tool selection, in which an agent selects or escalates to a higher-privilege tool despite a sufficient lower-privilege alternative. We introduce ToolPrivBench to evaluate whether agents choose higher-privilege tools despite sufficient lower-privilege alternatives, measuring both initial selection and escalation after transient tool failures. Across eight domains and five recurring risk patterns, we find that over-privileged tool selection is common among mainstream LLM agents and is further amplified by transient failures. We further find that general safety alignment does not reliably transfer to least-privilege tool choice, while prompt-level controls provide only limited mitigation under transient failures. We therefore introduce a privilege-aware post-training defense that teaches agents to prefer sufficient lower-privilege tools and escalate only when necessary. Our mitigation experiments show that this defense substantially reduces unnecessary high-privilege tool use while preserving general capabilities.