Vielstufige Befehls-Hierarchie in LLM-Agenten

Zusammenfassung

Große Sprachmodell-Agenten erhalten Anweisungen aus vielen Quellen – Systemnachrichten, Benutzereingaben, Werkzeugausgaben und mehr – wobei jede Quelle unterschiedliche Vertrauenswürdigkeit und Autorität besitzt. Wenn diese Anweisungen in Konflikt geraten, müssen Modelle zuverlässig der Anweisung mit der höchsten Berechtigung folgen, um sicher und effektiv zu bleiben. Das vorherrschende Paradigma, die Anweisungshierarchie (Instruction Hierarchy, IH), geht von einer festen, kleinen Anzahl von Berechtigungsebenen (typischerweise weniger als fünf) aus, die durch starre Rollenbezeichnungen definiert sind (z.B. System > Benutzer). Dies ist unzureichend für reale agentenbasierte Umgebungen, in denen Konflikte zwischen weitaus mehr Quellen und Kontexten auftreten können. In dieser Arbeit schlagen wir die Vielebenen-Anweisungshierarchie (Many-Tier Instruction Hierarchy, ManyIH) vor, ein Paradigma zur Lösung von Anweisungskonflikten zwischen Anweisungen mit beliebig vielen Berechtigungsebenen. Wir führen ManyIH-Bench ein, den ersten Benchmark für ManyIH. ManyIH-Bench erfordert, dass Modelle bis zu 12 Ebenen widersprüchlicher Anweisungen mit unterschiedlichen Berechtigungen navigieren, bestehend aus 853 agentenbasierten Aufgaben (427 Programmieraufgaben und 426 Anweisungsbefolgungsaufgaben). ManyIH-Bench kombiniert Einschränkungen, die von LLMs entwickelt und von Menschen verifiziert wurden, um realistische und schwierige Testfälle zu erstellen, die 46 reale Agenten abdecken. Unsere Experimente zeigen, dass selbst die derzeit leistungsstärksten Modelle schlecht abschneiden (~40 % Genauigkeit), wenn die Anzahl der Anweisungskonflikte skaliert. Diese Arbeit unterstreicht die dringende Notwendigkeit von Methoden, die explizit eine feingranulare, skalierbare Lösung von Anweisungskonflikten in agentenbasierten Umgebungen zum Ziel haben.

English

Large language model agents receive instructions from many sources-system messages, user prompts, tool outputs, and more-each carrying different levels of trust and authority. When these instructions conflict, models must reliably follow the highest-privilege instruction to remain safe and effective. The dominant paradigm, instruction hierarchy (IH), assumes a fixed, small set of privilege levels (typically fewer than five) defined by rigid role labels (e.g., system > user). This is inadequate for real-world agentic settings, where conflicts can arise across far more sources and contexts. In this work, we propose Many-Tier Instruction Hierarchy (ManyIH), a paradigm for resolving instruction conflicts among instructions with arbitrarily many privilege levels. We introduce ManyIH-Bench, the first benchmark for ManyIH. ManyIH-Bench requires models to navigate up to 12 levels of conflicting instructions with varying privileges, comprising 853 agentic tasks (427 coding and 426 instruction-following). ManyIH-Bench composes constraints developed by LLMs and verified by humans to create realistic and difficult test cases spanning 46 real-world agents. Our experiments show that even the current frontier models perform poorly (~40% accuracy) when instruction conflict scales. This work underscores the urgent need for methods that explicitly target fine-grained, scalable instruction conflict resolution in agentic settings.

Vielstufige Befehls-Hierarchie in LLM-Agenten

Many-Tier Instruction Hierarchy in LLM Agents

Zusammenfassung

Support