ChatPaper.aiChatPaper

AGENTIF : Évaluation des capacités de suivi d'instructions des grands modèles de langage dans des scénarios agentiques

AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios

May 22, 2025
Auteurs: Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités avancées dans des applications agentiques en contexte réel. Les efforts de recherche croissants visent à développer des agents basés sur LLM pour répondre à des demandes pratiques, introduisant un nouveau défi : les scénarios agentiques impliquent souvent des instructions longues avec des contraintes complexes, telles que des prompts système étendus et des spécifications détaillées d'outils. Bien que le respect de ces instructions soit crucial pour les applications agentiques, la capacité des LLMs à les suivre de manière fiable reste peu explorée. Dans cet article, nous présentons AgentIF, le premier benchmark pour évaluer systématiquement la capacité des LLMs à suivre des instructions dans des scénarios agentiques. AgentIF se caractérise par trois aspects clés : (1) Réaliste, construit à partir de 50 applications agentiques réelles. (2) Long, avec une moyenne de 1 723 mots et un maximum de 15 630 mots. (3) Complexe, avec une moyenne de 11,9 contraintes par instruction, couvrant divers types de contraintes, telles que les spécifications d'outils et les contraintes conditionnelles. Pour construire AgentIF, nous avons collecté 707 instructions annotées par des humains sur 50 tâches agentiques provenant d'agents d'applications industrielles et de systèmes agentiques open-source. Pour chaque instruction, nous avons annoté les contraintes associées et les métriques d'évaluation correspondantes, incluant l'évaluation basée sur du code, l'évaluation basée sur LLM et une évaluation hybride code-LLM. Nous utilisons AgentIF pour évaluer systématiquement les LLMs avancés existants. Nous observons que les modèles actuels performent généralement mal, en particulier dans la gestion des structures de contraintes complexes et des spécifications d'outils. Nous menons également une analyse des erreurs et des expériences analytiques sur la longueur des instructions et les méta-contraintes, fournissant des observations sur les modes d'échec des LLMs existants. Nous avons publié le code et les données pour faciliter les recherches futures.
English
Large Language Models (LLMs) have demonstrated advanced capabilities in real-world agentic applications. Growing research efforts aim to develop LLM-based agents to address practical demands, introducing a new challenge: agentic scenarios often involve lengthy instructions with complex constraints, such as extended system prompts and detailed tool specifications. While adherence to such instructions is crucial for agentic applications, whether LLMs can reliably follow them remains underexplored. In this paper, we introduce AgentIF, the first benchmark for systematically evaluating LLM instruction following ability in agentic scenarios. AgentIF features three key characteristics: (1) Realistic, constructed from 50 real-world agentic applications. (2) Long, averaging 1,723 words with a maximum of 15,630 words. (3) Complex, averaging 11.9 constraints per instruction, covering diverse constraint types, such as tool specifications and condition constraints. To construct AgentIF, we collect 707 human-annotated instructions across 50 agentic tasks from industrial application agents and open-source agentic systems. For each instruction, we annotate the associated constraints and corresponding evaluation metrics, including code-based evaluation, LLM-based evaluation, and hybrid code-LLM evaluation. We use AgentIF to systematically evaluate existing advanced LLMs. We observe that current models generally perform poorly, especially in handling complex constraint structures and tool specifications. We further conduct error analysis and analytical experiments on instruction length and meta constraints, providing some findings about the failure modes of existing LLMs. We have released the code and data to facilitate future research.

Summary

AI-Generated Summary

PDF62May 23, 2025