Jerarquía de Instrucción de Múltiples Niveles en Agentes de LLM

Resumen

Los agentes de modelos lingüísticos grandes reciben instrucciones de múltiples fuentes - mensajes del sistema, indicaciones del usuario, salidas de herramientas, entre otras - cada una con distintos niveles de confianza y autoridad. Cuando estas instrucciones entran en conflicto, los modelos deben seguir de manera confiable la instrucción con mayor privilegio para mantenerse seguros y efectivos. El paradigma dominante, la jerarquía de instrucciones (JI), asume un conjunto fijo y reducido de niveles de privilegio (normalmente menos de cinco) definido por etiquetas de roles rígidas (por ejemplo, sistema > usuario). Esto resulta insuficiente para entornos agenticos del mundo real, donde los conflictos pueden surgir entre muchas más fuentes y contextos. En este trabajo, proponemos la Jerarquía de Instrucciones de Múltiples Niveles (ManyIH), un paradigma para resolver conflictos de instrucciones entre instrucciones con un número arbitrario de niveles de privilegio. Presentamos ManyIH-Bench, el primer punto de referencia para ManyIH. ManyIH-Bench requiere que los modelos naveguen hasta 12 niveles de instrucciones conflictivas con privilegios variables, comprendiendo 853 tareas agenticas (427 de programación y 426 de seguimiento de instrucciones). ManyIH-Bench combina restricciones desarrolladas por LLMs y verificadas por humanos para crear casos de prueba realistas y difíciles que abarcan 46 agentes del mundo real. Nuestros experimentos muestran que incluso los modelos de vanguardia actuales tienen un rendimiento deficiente (~40% de precisión) cuando la escala de conflictos de instrucciones aumenta. Este trabajo subraya la necesidad urgente de métodos que aborden explícitamente la resolución de conflictos de instrucciones escalable y de grano fino en entornos agenticos.

English

Large language model agents receive instructions from many sources-system messages, user prompts, tool outputs, and more-each carrying different levels of trust and authority. When these instructions conflict, models must reliably follow the highest-privilege instruction to remain safe and effective. The dominant paradigm, instruction hierarchy (IH), assumes a fixed, small set of privilege levels (typically fewer than five) defined by rigid role labels (e.g., system > user). This is inadequate for real-world agentic settings, where conflicts can arise across far more sources and contexts. In this work, we propose Many-Tier Instruction Hierarchy (ManyIH), a paradigm for resolving instruction conflicts among instructions with arbitrarily many privilege levels. We introduce ManyIH-Bench, the first benchmark for ManyIH. ManyIH-Bench requires models to navigate up to 12 levels of conflicting instructions with varying privileges, comprising 853 agentic tasks (427 coding and 426 instruction-following). ManyIH-Bench composes constraints developed by LLMs and verified by humans to create realistic and difficult test cases spanning 46 real-world agents. Our experiments show that even the current frontier models perform poorly (~40% accuracy) when instruction conflict scales. This work underscores the urgent need for methods that explicitly target fine-grained, scalable instruction conflict resolution in agentic settings.

Jerarquía de Instrucción de Múltiples Niveles en Agentes de LLM

Many-Tier Instruction Hierarchy in LLM Agents

Resumen

Support