AGENTIF: Valutazione della Capacità di Seguire le Istruzioni nei Modelli Linguistici di Grandi Dimensioni in Scenari Agenti
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios
May 22, 2025
Autori: Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Abstract
I Large Language Model (LLM) hanno dimostrato capacità avanzate in applicazioni agentive del mondo reale. Gli sforzi di ricerca in crescita mirano a sviluppare agenti basati su LLM per soddisfare esigenze pratiche, introducendo una nuova sfida: gli scenari agentivi spesso coinvolgono istruzioni lunghe con vincoli complessi, come prompt di sistema estesi e specifiche dettagliate degli strumenti. Sebbene l'aderenza a tali istruzioni sia cruciale per le applicazioni agentive, la capacità degli LLM di seguirle in modo affidabile rimane poco esplorata. In questo articolo, introduciamo AgentIF, il primo benchmark per valutare sistematicamente la capacità degli LLM di seguire le istruzioni in scenari agentivi. AgentIF presenta tre caratteristiche chiave: (1) Realistico, costruito da 50 applicazioni agentive del mondo reale. (2) Lungo, con una media di 1.723 parole e un massimo di 15.630 parole. (3) Complesso, con una media di 11,9 vincoli per istruzione, che coprono diversi tipi di vincoli, come specifiche degli strumenti e vincoli condizionali. Per costruire AgentIF, abbiamo raccolto 707 istruzioni annotate da esseri umani in 50 task agentivi provenienti da agenti di applicazioni industriali e sistemi agentivi open-source. Per ogni istruzione, abbiamo annotato i vincoli associati e le corrispondenti metriche di valutazione, tra cui valutazione basata su codice, valutazione basata su LLM e valutazione ibrida codice-LLM. Utilizziamo AgentIF per valutare sistematicamente gli LLM avanzati esistenti. Osserviamo che i modelli attuali generalmente hanno prestazioni scarse, specialmente nella gestione di strutture di vincoli complesse e specifiche degli strumenti. Inoltre, conduciamo analisi degli errori e esperimenti analitici sulla lunghezza delle istruzioni e sui meta vincoli, fornendo alcuni risultati sui modi di fallimento degli LLM esistenti. Abbiamo rilasciato il codice e i dati per facilitare la ricerca futura.
English
Large Language Models (LLMs) have demonstrated advanced capabilities in
real-world agentic applications. Growing research efforts aim to develop
LLM-based agents to address practical demands, introducing a new challenge:
agentic scenarios often involve lengthy instructions with complex constraints,
such as extended system prompts and detailed tool specifications. While
adherence to such instructions is crucial for agentic applications, whether
LLMs can reliably follow them remains underexplored. In this paper, we
introduce AgentIF, the first benchmark for systematically evaluating LLM
instruction following ability in agentic scenarios. AgentIF features three key
characteristics: (1) Realistic, constructed from 50 real-world agentic
applications. (2) Long, averaging 1,723 words with a maximum of 15,630 words.
(3) Complex, averaging 11.9 constraints per instruction, covering diverse
constraint types, such as tool specifications and condition constraints. To
construct AgentIF, we collect 707 human-annotated instructions across 50
agentic tasks from industrial application agents and open-source agentic
systems. For each instruction, we annotate the associated constraints and
corresponding evaluation metrics, including code-based evaluation, LLM-based
evaluation, and hybrid code-LLM evaluation. We use AgentIF to systematically
evaluate existing advanced LLMs. We observe that current models generally
perform poorly, especially in handling complex constraint structures and tool
specifications. We further conduct error analysis and analytical experiments on
instruction length and meta constraints, providing some findings about the
failure modes of existing LLMs. We have released the code and data to
facilitate future research.