AGENTIF: Benchmarking der Befolgung von Anweisungen durch große Sprachmodelle in agentenbasierten Szenarien
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios
May 22, 2025
Autoren: Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben fortgeschrittene Fähigkeiten in realen agentenbasierten Anwendungen demonstriert. Zunehmende Forschungsbemühungen zielen darauf ab, LLM-basierte Agenten zu entwickeln, um praktische Anforderungen zu erfüllen, was eine neue Herausforderung mit sich bringt: Agentenszenarien beinhalten oft umfangreiche Anweisungen mit komplexen Einschränkungen, wie z. B. ausführliche Systemprompts und detaillierte Werkzeugspezifikationen. Während die Einhaltung solcher Anweisungen für agentenbasierte Anwendungen entscheidend ist, bleibt die Frage, ob LLMs diesen zuverlässig folgen können, weitgehend unerforscht. In diesem Artikel stellen wir AgentIF vor, den ersten Benchmark zur systematischen Bewertung der Fähigkeit von LLMs, Anweisungen in agentenbasierten Szenarien zu befolgen. AgentIF zeichnet sich durch drei Schlüsselmerkmale aus: (1) Realistisch, konstruiert aus 50 realen agentenbasierten Anwendungen. (2) Lang, mit einem Durchschnitt von 1.723 Wörtern und einem Maximum von 15.630 Wörtern. (3) Komplex, mit einem Durchschnitt von 11,9 Einschränkungen pro Anweisung, die verschiedene Einschränkungstypen abdecken, wie z. B. Werkzeugspezifikationen und Bedingungseinschränkungen. Um AgentIF zu konstruieren, sammeln wir 707 von Menschen annotierte Anweisungen über 50 agentenbasierte Aufgaben aus industriellen Anwendungsagenten und Open-Source-Agentensystemen. Für jede Anweisung annotieren wir die zugehörigen Einschränkungen und entsprechenden Bewertungsmetriken, einschließlich codebasierter Bewertung, LLM-basierter Bewertung und hybrider Code-LLM-Bewertung. Wir verwenden AgentIF, um bestehende fortgeschrittene LLMs systematisch zu bewerten. Wir beobachten, dass aktuelle Modelle im Allgemeinen schlecht abschneiden, insbesondere bei der Handhabung komplexer Einschränkungsstrukturen und Werkzeugspezifikationen. Wir führen weiterhin Fehleranalysen und analytische Experimente zur Anweisungslänge und Meta-Einschränkungen durch und liefern einige Erkenntnisse über die Fehlermodi bestehender LLMs. Wir haben den Code und die Daten veröffentlicht, um zukünftige Forschung zu erleichtern.
English
Large Language Models (LLMs) have demonstrated advanced capabilities in
real-world agentic applications. Growing research efforts aim to develop
LLM-based agents to address practical demands, introducing a new challenge:
agentic scenarios often involve lengthy instructions with complex constraints,
such as extended system prompts and detailed tool specifications. While
adherence to such instructions is crucial for agentic applications, whether
LLMs can reliably follow them remains underexplored. In this paper, we
introduce AgentIF, the first benchmark for systematically evaluating LLM
instruction following ability in agentic scenarios. AgentIF features three key
characteristics: (1) Realistic, constructed from 50 real-world agentic
applications. (2) Long, averaging 1,723 words with a maximum of 15,630 words.
(3) Complex, averaging 11.9 constraints per instruction, covering diverse
constraint types, such as tool specifications and condition constraints. To
construct AgentIF, we collect 707 human-annotated instructions across 50
agentic tasks from industrial application agents and open-source agentic
systems. For each instruction, we annotate the associated constraints and
corresponding evaluation metrics, including code-based evaluation, LLM-based
evaluation, and hybrid code-LLM evaluation. We use AgentIF to systematically
evaluate existing advanced LLMs. We observe that current models generally
perform poorly, especially in handling complex constraint structures and tool
specifications. We further conduct error analysis and analytical experiments on
instruction length and meta constraints, providing some findings about the
failure modes of existing LLMs. We have released the code and data to
facilitate future research.Summary
AI-Generated Summary