Hierarquia de Instrução de Múltiplos Níveis em Agentes de LLM

Resumo

Os agentes de modelos de linguagem de grande escala recebem instruções de múltiplas fontes - mensagens do sistema, comandos do usuário, saídas de ferramentas e outros - cada uma carregando diferentes níveis de confiança e autoridade. Quando estas instruções entram em conflito, os modelos devem seguir de forma confiável a instrução de maior privilégio para manterem-se seguros e eficazes. O paradigma dominante, a hierarquia de instruções (HI), pressupõe um conjunto fixo e reduzido de níveis de privilégio (tipicamente menos de cinco) definidos por rótulos de função rígidos (ex.: sistema > utilizador). Esta abordagem é inadequada para ambientes agentes do mundo real, onde conflitos podem surgir entre um número muito maior de fontes e contextos. Neste trabalho, propomos a Hierarquia de Instruções de Múltiplos Níveis (ManyIH), um paradigma para resolver conflitos de instruções entre instruções com um número arbitrário de níveis de privilégio. Apresentamos o ManyIH-Bench, o primeiro benchmark para ManyIH. O ManyIH-Bench exige que os modelos naveguem até 12 níveis de instruções conflituosas com privilégios variados, compreendendo 853 tarefas agentes (427 de programação e 426 de seguimento de instruções). O ManyIH-Bench combina restrições desenvolvidas por LLMs e validadas por humanos para criar casos de teste realistas e difíceis, abrangendo 46 agentes do mundo real. Nossos experimentos mostram que mesmo os modelos de fronteira atuais têm desempenho fraco (~40% de precisão) quando a escala de conflitos de instruções aumenta. Este trabalho sublinha a necessidade urgente de métodos que visem explicitamente a resolução escalável e de granularidade fina de conflitos de instruções em ambientes agentes.

English

Large language model agents receive instructions from many sources-system messages, user prompts, tool outputs, and more-each carrying different levels of trust and authority. When these instructions conflict, models must reliably follow the highest-privilege instruction to remain safe and effective. The dominant paradigm, instruction hierarchy (IH), assumes a fixed, small set of privilege levels (typically fewer than five) defined by rigid role labels (e.g., system > user). This is inadequate for real-world agentic settings, where conflicts can arise across far more sources and contexts. In this work, we propose Many-Tier Instruction Hierarchy (ManyIH), a paradigm for resolving instruction conflicts among instructions with arbitrarily many privilege levels. We introduce ManyIH-Bench, the first benchmark for ManyIH. ManyIH-Bench requires models to navigate up to 12 levels of conflicting instructions with varying privileges, comprising 853 agentic tasks (427 coding and 426 instruction-following). ManyIH-Bench composes constraints developed by LLMs and verified by humans to create realistic and difficult test cases spanning 46 real-world agents. Our experiments show that even the current frontier models perform poorly (~40% accuracy) when instruction conflict scales. This work underscores the urgent need for methods that explicitly target fine-grained, scalable instruction conflict resolution in agentic settings.

Hierarquia de Instrução de Múltiplos Níveis em Agentes de LLM

Many-Tier Instruction Hierarchy in LLM Agents

Resumo

Support