LLM 에이전트의 다중 계층 명령어 계층 구조
Many-Tier Instruction Hierarchy in LLM Agents
April 10, 2026
저자: Jingyu Zhang, Tianjian Li, William Jurayj, Hongyuan Zhan, Benjamin Van Durme, Daniel Khashabi
cs.AI
초록
대규모 언어 모델 에이전트는 시스템 메시지, 사용자 프롬프트, 도구 출력 등 다양한 출처로부터 지시를 받으며, 각 출처는 서로 다른 수준의 신뢰도와 권한을 갖습니다. 이러한 지시가 상충할 경우 모델은 안전하고 효과적으로 작동하기 위해 가장 높은 권한을 가진 지시를 신뢰성 있게 따라야 합니다. 기존의 지배적 패러다임인 지시 계층 구조는 고정된 소수의 권한 수준(일반적으로 5개 미만)을 엄격한 역할 레이블(예: 시스템 > 사용자)로 정의합니다. 이는 훨씬 더 다양한 출처와 상황에서 충돌이 발생할 수 있는 실제 에이전트 환경에서는 부적합합니다. 본 연구에서는 임의의 다수 권한 수준을 가진 지시 간 충돌을 해결하기 위한 패러다임인 다단계 지시 계층 구조(ManyIH)를 제안합니다. 또한 ManyIH를 평가하기 위한 최초의 벤치마크인 ManyIH-Bench를 소개합니다. ManyIH-Bench는 최대 12단계의 다양한 권한을 가진 상충하는 지시를 처리해야 하며, 853개의 에이전트 과제(코딩 427개, 지시 수행 426개)로 구성됩니다. ManyIH-Bench는 LLM이 개발하고 인간이 검증한 제약 조건들을 조합하여 46가지 실제 에이전트에 걸친 현실적이고 난이도 높은 테스트 케이스를 생성합니다. 우리의 실험 결과에 따르면, 최첨단 모델조차 지시 충돌 규모가 커지면 성능이 크게 저하됩니다(~40% 정확도). 이 연구는 에이전트 환경에서 세분화되고 확장 가능한 지시 충돌 해결 방법을 명시적으로 다루는 접근법의 시급한 필요성을 강조합니다.
English
Large language model agents receive instructions from many sources-system messages, user prompts, tool outputs, and more-each carrying different levels of trust and authority. When these instructions conflict, models must reliably follow the highest-privilege instruction to remain safe and effective. The dominant paradigm, instruction hierarchy (IH), assumes a fixed, small set of privilege levels (typically fewer than five) defined by rigid role labels (e.g., system > user). This is inadequate for real-world agentic settings, where conflicts can arise across far more sources and contexts. In this work, we propose Many-Tier Instruction Hierarchy (ManyIH), a paradigm for resolving instruction conflicts among instructions with arbitrarily many privilege levels. We introduce ManyIH-Bench, the first benchmark for ManyIH. ManyIH-Bench requires models to navigate up to 12 levels of conflicting instructions with varying privileges, comprising 853 agentic tasks (427 coding and 426 instruction-following). ManyIH-Bench composes constraints developed by LLMs and verified by humans to create realistic and difficult test cases spanning 46 real-world agents. Our experiments show that even the current frontier models perform poorly (~40% accuracy) when instruction conflict scales. This work underscores the urgent need for methods that explicitly target fine-grained, scalable instruction conflict resolution in agentic settings.