Hiérarchie d'Instructions à Multiples Niveaux dans les Agents LLM

Résumé

Les agents de modèles de langage étendent reçoivent des instructions provenant de nombreuses sources - messages système, invites utilisateur, résultats d'outils, et plus encore - chacune portant des niveaux de confiance et d'autorité variables. Lorsque ces instructions entrent en conflit, les modèles doivent suivre de manière fiable l'instruction de plus haut privilège pour rester sûrs et efficaces. Le paradigme dominant, la hiérarchie d'instructions (HI), suppose un ensemble fixe et restreint de niveaux de privilège (généralement moins de cinq) définis par des étiquettes de rôle rigides (par exemple, système > utilisateur). Cette approche est inadéquate pour les environnements agentiques réels, où des conflits peuvent surgir entre bien plus de sources et de contextes. Dans ce travail, nous proposons la Hiérarchie d'Instructions à Multiples Niveaux (ManyIH), un paradigme pour résoudre les conflits d'instructions parmi des instructions comportant un nombre arbitraire de niveaux de privilège. Nous présentons ManyIH-Bench, le premier benchmark dédié à ManyIH. ManyIH-Bench exige que les modèles naviguent parmi jusqu'à 12 niveaux d'instructions conflictuelles avec des privilèges variables, comprenant 853 tâches agentiques (427 de codage et 426 de suivi d'instructions). ManyIH-Bench combine des contraintes développées par des LLM et vérifiées par des humains pour créer des cas de test réalistes et difficiles couvrant 46 agents du monde réel. Nos expériences montrent que même les modèles frontières actuels obtiennent de faibles performances (~40% de précision) lorsque l'échelle des conflits d'instructions augmente. Ce travail souligne le besoin urgent de méthodes ciblant explicitement la résolution fine et évolutive des conflits d'instructions dans les environnements agentiques.

English

Large language model agents receive instructions from many sources-system messages, user prompts, tool outputs, and more-each carrying different levels of trust and authority. When these instructions conflict, models must reliably follow the highest-privilege instruction to remain safe and effective. The dominant paradigm, instruction hierarchy (IH), assumes a fixed, small set of privilege levels (typically fewer than five) defined by rigid role labels (e.g., system > user). This is inadequate for real-world agentic settings, where conflicts can arise across far more sources and contexts. In this work, we propose Many-Tier Instruction Hierarchy (ManyIH), a paradigm for resolving instruction conflicts among instructions with arbitrarily many privilege levels. We introduce ManyIH-Bench, the first benchmark for ManyIH. ManyIH-Bench requires models to navigate up to 12 levels of conflicting instructions with varying privileges, comprising 853 agentic tasks (427 coding and 426 instruction-following). ManyIH-Bench composes constraints developed by LLMs and verified by humans to create realistic and difficult test cases spanning 46 real-world agents. Our experiments show that even the current frontier models perform poorly (~40% accuracy) when instruction conflict scales. This work underscores the urgent need for methods that explicitly target fine-grained, scalable instruction conflict resolution in agentic settings.

Hiérarchie d'Instructions à Multiples Niveaux dans les Agents LLM

Many-Tier Instruction Hierarchy in LLM Agents

Résumé

Support