Многоуровневая иерархия инструкций в агентах на основе больших языковых моделей

Аннотация

Крупные языковые модели-агенты получают инструкции из множества источников — системных сообщений, пользовательских запросов, результатов работы инструментов и других, — каждый из которых обладает разным уровнем доверия и авторитета. Когда эти инструкции конфликтуют, модели должны надежно следовать указаниям с наивысшим уровнем привилегий, чтобы оставаться безопасными и эффективными. Доминирующая парадигма — иерархия инструкций (ИИ) — предполагает фиксированный, небольшой набор уровней привилегий (обычно менее пяти), определяемых жесткими ролевыми метками (например, система > пользователь). Это неадекватно для реальных агентских сред, где конфликты могут возникать между гораздо большим количеством источников и в различных контекстах. В данной работе мы предлагаем парадигму Многоуровневой иерархии инструкций (МнИИ) для разрешения конфликтов между инструкциями с произвольным количеством уровней привилегий. Мы представляем ManyIH-Bench — первый бенчмарк для МнИИ. ManyIH-Bench требует от моделей обработки до 12 уровней конфликтующих инструкций с разными привилегиями и включает 853 агентские задачи (427 по программированию и 426 на следование инструкциям). ManyIH-Bench комбинирует ограничения, разработанные языковыми моделями и проверенные людьми, для создания реалистичных и сложных тестовых случаев, охватывающих 46 реальных агентов. Наши эксперименты показывают, что даже современные передовые модели демонстрируют низкую производительность (~40% точности) при масштабировании конфликтов инструкций. Эта работа подчеркивает насущную необходимость в методах, явно направленных на детальное и масштабируемое разрешение конфликтов инструкций в агентских средах.

English

Large language model agents receive instructions from many sources-system messages, user prompts, tool outputs, and more-each carrying different levels of trust and authority. When these instructions conflict, models must reliably follow the highest-privilege instruction to remain safe and effective. The dominant paradigm, instruction hierarchy (IH), assumes a fixed, small set of privilege levels (typically fewer than five) defined by rigid role labels (e.g., system > user). This is inadequate for real-world agentic settings, where conflicts can arise across far more sources and contexts. In this work, we propose Many-Tier Instruction Hierarchy (ManyIH), a paradigm for resolving instruction conflicts among instructions with arbitrarily many privilege levels. We introduce ManyIH-Bench, the first benchmark for ManyIH. ManyIH-Bench requires models to navigate up to 12 levels of conflicting instructions with varying privileges, comprising 853 agentic tasks (427 coding and 426 instruction-following). ManyIH-Bench composes constraints developed by LLMs and verified by humans to create realistic and difficult test cases spanning 46 real-world agents. Our experiments show that even the current frontier models perform poorly (~40% accuracy) when instruction conflict scales. This work underscores the urgent need for methods that explicitly target fine-grained, scalable instruction conflict resolution in agentic settings.

Многоуровневая иерархия инструкций в агентах на основе больших языковых моделей

Many-Tier Instruction Hierarchy in LLM Agents

Аннотация

Support