Meerlagige Instructiehiërarchie in LLM-Agenten

Samenvatting

Grootschalige taalmodelagenten ontvangen instructies uit vele bronnen—systeemberichten, gebruikersprompts, tooloutputs en meer—elk met verschillende niveaus van vertrouwen en autoriteit. Wanneer deze instructies conflicteren, moeten modellen betrouwbaar de instructie met het hoogste privilege volgen om veilig en effectief te blijven. Het dominante paradigma, instructiehiërarchie (IH), veronderstelt een vaste, kleine set privilege-niveaus (meestal minder dan vijf) gedefinieerd door rigide rollabels (bijv. systeem > gebruiker). Dit is ontoereikend voor real-world agentische omgevingen, waar conflicten kunnen ontstaan tussen veel meer bronnen en contexten. In dit werk stellen we Many-Tier Instruction Hierarchy (ManyIH) voor, een paradigma voor het oplossen van instructieconflicten tussen instructies met een willekeurig aantal privilege-niveaus. We introduceren ManyIH-Bench, de eerste benchmark voor ManyIH. ManyIH-Bench vereist dat modellen navigeren door tot wel 12 niveaus van conflicterende instructies met uiteenlopende privileges, bestaande uit 853 agentische taken (427 programmeertaken en 426 instructievolg-taken). ManyIH-Bench combineert constraints ontwikkeld door LLM's en geverifieerd door mensen om realistische en moeilijke testgevallen te creëren die 46 real-world agents omvatten. Onze experimenten tonen aan dat zelfs de huidige frontier-modellen slecht presteren (~40% nauwkeurigheid) wanneer instructieconflicten schalen. Dit werk benadrukt de dringende behoefte aan methoden die expliciet gericht zijn op fijnmazige, schaalbare oplossing van instructieconflicten in agentische omgevingen.

English

Large language model agents receive instructions from many sources-system messages, user prompts, tool outputs, and more-each carrying different levels of trust and authority. When these instructions conflict, models must reliably follow the highest-privilege instruction to remain safe and effective. The dominant paradigm, instruction hierarchy (IH), assumes a fixed, small set of privilege levels (typically fewer than five) defined by rigid role labels (e.g., system > user). This is inadequate for real-world agentic settings, where conflicts can arise across far more sources and contexts. In this work, we propose Many-Tier Instruction Hierarchy (ManyIH), a paradigm for resolving instruction conflicts among instructions with arbitrarily many privilege levels. We introduce ManyIH-Bench, the first benchmark for ManyIH. ManyIH-Bench requires models to navigate up to 12 levels of conflicting instructions with varying privileges, comprising 853 agentic tasks (427 coding and 426 instruction-following). ManyIH-Bench composes constraints developed by LLMs and verified by humans to create realistic and difficult test cases spanning 46 real-world agents. Our experiments show that even the current frontier models perform poorly (~40% accuracy) when instruction conflict scales. This work underscores the urgent need for methods that explicitly target fine-grained, scalable instruction conflict resolution in agentic settings.

Meerlagige Instructiehiërarchie in LLM-Agenten

Many-Tier Instruction Hierarchy in LLM Agents

Samenvatting

Support