AGENTIF : Évaluation des capacités de suivi d'instructions des grands modèles de langage dans des scénarios agentiques
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios
May 22, 2025
Auteurs: Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré des capacités avancées dans des applications agentiques en contexte réel. Les efforts de recherche croissants visent à développer des agents basés sur LLM pour répondre à des demandes pratiques, introduisant un nouveau défi : les scénarios agentiques impliquent souvent des instructions longues avec des contraintes complexes, telles que des prompts système étendus et des spécifications détaillées d'outils. Bien que le respect de ces instructions soit crucial pour les applications agentiques, la capacité des LLMs à les suivre de manière fiable reste peu explorée. Dans cet article, nous présentons AgentIF, le premier benchmark pour évaluer systématiquement la capacité des LLMs à suivre des instructions dans des scénarios agentiques. AgentIF se caractérise par trois aspects clés : (1) Réaliste, construit à partir de 50 applications agentiques réelles. (2) Long, avec une moyenne de 1 723 mots et un maximum de 15 630 mots. (3) Complexe, avec une moyenne de 11,9 contraintes par instruction, couvrant divers types de contraintes, telles que les spécifications d'outils et les contraintes conditionnelles. Pour construire AgentIF, nous avons collecté 707 instructions annotées par des humains sur 50 tâches agentiques provenant d'agents d'applications industrielles et de systèmes agentiques open-source. Pour chaque instruction, nous avons annoté les contraintes associées et les métriques d'évaluation correspondantes, incluant l'évaluation basée sur du code, l'évaluation basée sur LLM et une évaluation hybride code-LLM. Nous utilisons AgentIF pour évaluer systématiquement les LLMs avancés existants. Nous observons que les modèles actuels performent généralement mal, en particulier dans la gestion des structures de contraintes complexes et des spécifications d'outils. Nous menons également une analyse des erreurs et des expériences analytiques sur la longueur des instructions et les méta-contraintes, fournissant des observations sur les modes d'échec des LLMs existants. Nous avons publié le code et les données pour faciliter les recherches futures.
English
Large Language Models (LLMs) have demonstrated advanced capabilities in
real-world agentic applications. Growing research efforts aim to develop
LLM-based agents to address practical demands, introducing a new challenge:
agentic scenarios often involve lengthy instructions with complex constraints,
such as extended system prompts and detailed tool specifications. While
adherence to such instructions is crucial for agentic applications, whether
LLMs can reliably follow them remains underexplored. In this paper, we
introduce AgentIF, the first benchmark for systematically evaluating LLM
instruction following ability in agentic scenarios. AgentIF features three key
characteristics: (1) Realistic, constructed from 50 real-world agentic
applications. (2) Long, averaging 1,723 words with a maximum of 15,630 words.
(3) Complex, averaging 11.9 constraints per instruction, covering diverse
constraint types, such as tool specifications and condition constraints. To
construct AgentIF, we collect 707 human-annotated instructions across 50
agentic tasks from industrial application agents and open-source agentic
systems. For each instruction, we annotate the associated constraints and
corresponding evaluation metrics, including code-based evaluation, LLM-based
evaluation, and hybrid code-LLM evaluation. We use AgentIF to systematically
evaluate existing advanced LLMs. We observe that current models generally
perform poorly, especially in handling complex constraint structures and tool
specifications. We further conduct error analysis and analytical experiments on
instruction length and meta constraints, providing some findings about the
failure modes of existing LLMs. We have released the code and data to
facilitate future research.Summary
AI-Generated Summary