AGENTIF: Benchmarking van Instructievolging door Grote Taalmodellen in Agent-gebaseerde Scenario's
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios
May 22, 2025
Auteurs: Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben geavanceerde mogelijkheden getoond in real-world agentische toepassingen. Groeiende onderzoeksinspanningen zijn gericht op de ontwikkeling van LLM-gebaseerde agents om praktische eisen aan te pakken, wat een nieuwe uitdaging introduceert: agentische scenario's omvatten vaak uitgebreide instructies met complexe beperkingen, zoals uitgebreide systeemprompts en gedetailleerde toolspecificaties. Hoewel het volgen van dergelijke instructies cruciaal is voor agentische toepassingen, blijft de vraag of LLMs deze betrouwbaar kunnen volgen onderbelicht. In dit artikel introduceren we AgentIF, de eerste benchmark voor het systematisch evalueren van het instructievolgvermogen van LLMs in agentische scenario's. AgentIF heeft drie belangrijke kenmerken: (1) Realistisch, samengesteld uit 50 real-world agentische toepassingen. (2) Lang, met een gemiddelde van 1.723 woorden en een maximum van 15.630 woorden. (3) Complex, met een gemiddelde van 11,9 beperkingen per instructie, die diverse beperkingstypes omvatten, zoals toolspecificaties en voorwaarde-beperkingen. Om AgentIF te construeren, verzamelen we 707 door mensen geannoteerde instructies over 50 agentische taken van industriële applicatieagents en open-source agentische systemen. Voor elke instructie annoteren we de bijbehorende beperkingen en bijbehorende evaluatiemetrics, waaronder code-gebaseerde evaluatie, LLM-gebaseerde evaluatie en hybride code-LLM evaluatie. We gebruiken AgentIF om bestaande geavanceerde LLMs systematisch te evalueren. We observeren dat huidige modellen over het algemeen slecht presteren, vooral bij het omgaan met complexe beperkingsstructuren en toolspecificaties. We voeren verder foutanalyse en analytische experimenten uit over instructielengte en meta-beperkingen, wat enkele bevindingen oplevert over de faalmodi van bestaande LLMs. We hebben de code en data vrijgegeven om toekomstig onderzoek te faciliteren.
English
Large Language Models (LLMs) have demonstrated advanced capabilities in
real-world agentic applications. Growing research efforts aim to develop
LLM-based agents to address practical demands, introducing a new challenge:
agentic scenarios often involve lengthy instructions with complex constraints,
such as extended system prompts and detailed tool specifications. While
adherence to such instructions is crucial for agentic applications, whether
LLMs can reliably follow them remains underexplored. In this paper, we
introduce AgentIF, the first benchmark for systematically evaluating LLM
instruction following ability in agentic scenarios. AgentIF features three key
characteristics: (1) Realistic, constructed from 50 real-world agentic
applications. (2) Long, averaging 1,723 words with a maximum of 15,630 words.
(3) Complex, averaging 11.9 constraints per instruction, covering diverse
constraint types, such as tool specifications and condition constraints. To
construct AgentIF, we collect 707 human-annotated instructions across 50
agentic tasks from industrial application agents and open-source agentic
systems. For each instruction, we annotate the associated constraints and
corresponding evaluation metrics, including code-based evaluation, LLM-based
evaluation, and hybrid code-LLM evaluation. We use AgentIF to systematically
evaluate existing advanced LLMs. We observe that current models generally
perform poorly, especially in handling complex constraint structures and tool
specifications. We further conduct error analysis and analytical experiments on
instruction length and meta constraints, providing some findings about the
failure modes of existing LLMs. We have released the code and data to
facilitate future research.