Gerarchia Istruttiva a Molti Livelli negli Agenti LLM

Abstract

I modelli linguistici di grandi dimensioni agenti ricevono istruzioni da molte fonti - messaggi di sistema, prompt utente, output di strumenti e altro ancora - ciascuna con diversi livelli di affidabilità e autorità. Quando queste istruzioni entrano in conflitto, i modelli devono seguire in modo affidabile l'istruzione con il privilegio più elevato per rimanere sicuri ed efficaci. Il paradigma dominante, la gerarchia delle istruzioni (IH), presuppone un insieme fisso e ridotto di livelli di privilegio (tipicamente meno di cinque) definiti da etichette di ruolo rigide (ad esempio, sistema > utente). Questo approccio è inadeguato per contesti agentici del mondo reale, dove i conflitti possono sorgere tra molte più fonti e contesti. In questo lavoro, proponiamo la Many-Tier Instruction Hierarchy (ManyIH), un paradigma per risolvere i conflitti tra istruzioni con un numero arbitrario di livelli di privilegio. Introduciamo ManyIH-Bench, il primo benchmark per ManyIH. ManyIH-Bench richiede ai modelli di navigare fino a 12 livelli di istruzioni conflittuali con privilegi variabili, comprendendo 853 task agentici (427 di coding e 426 di instruction-following). ManyIH-Bench combina vincoli sviluppati da LLM e verificati da esseri umani per creare casi di test realistici e difficili che abbracciano 46 agenti del mondo reale. I nostri esperimenti mostrano che anche i modelli all'avanguardia attuali performano male (~40% di accuratezza) quando la scala dei conflitti di istruzioni aumenta. Questo lavoro sottolinea l'urgente necessità di metodi che mirino esplicitamente a una risoluzione granulare e scalabile dei conflitti di istruzioni in contesti agentici.

English

Large language model agents receive instructions from many sources-system messages, user prompts, tool outputs, and more-each carrying different levels of trust and authority. When these instructions conflict, models must reliably follow the highest-privilege instruction to remain safe and effective. The dominant paradigm, instruction hierarchy (IH), assumes a fixed, small set of privilege levels (typically fewer than five) defined by rigid role labels (e.g., system > user). This is inadequate for real-world agentic settings, where conflicts can arise across far more sources and contexts. In this work, we propose Many-Tier Instruction Hierarchy (ManyIH), a paradigm for resolving instruction conflicts among instructions with arbitrarily many privilege levels. We introduce ManyIH-Bench, the first benchmark for ManyIH. ManyIH-Bench requires models to navigate up to 12 levels of conflicting instructions with varying privileges, comprising 853 agentic tasks (427 coding and 426 instruction-following). ManyIH-Bench composes constraints developed by LLMs and verified by humans to create realistic and difficult test cases spanning 46 real-world agents. Our experiments show that even the current frontier models perform poorly (~40% accuracy) when instruction conflict scales. This work underscores the urgent need for methods that explicitly target fine-grained, scalable instruction conflict resolution in agentic settings.

Gerarchia Istruttiva a Molti Livelli negli Agenti LLM

Many-Tier Instruction Hierarchy in LLM Agents

Abstract

Support