AGENTIF: Avaliação da Capacidade de Seguir Instruções de Modelos de Linguagem de Grande Escala em Cenários de Agentes
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios
May 22, 2025
Autores: Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades avançadas em aplicações agentes do mundo real. Esforços crescentes de pesquisa visam desenvolver agentes baseados em LLMs para atender demandas práticas, introduzindo um novo desafio: cenários agentes frequentemente envolvem instruções extensas com restrições complexas, como prompts de sistema prolongados e especificações detalhadas de ferramentas. Embora a adesão a tais instruções seja crucial para aplicações agentes, a capacidade dos LLMs de segui-las de forma confiável ainda é pouco explorada. Neste artigo, apresentamos o AgentIF, o primeiro benchmark para avaliar sistematicamente a capacidade de seguir instruções de LLMs em cenários agentes. O AgentIF apresenta três características principais: (1) Realista, construído a partir de 50 aplicações agentes do mundo real. (2) Longo, com uma média de 1.723 palavras e um máximo de 15.630 palavras. (3) Complexo, com uma média de 11,9 restrições por instrução, abrangendo diversos tipos de restrições, como especificações de ferramentas e restrições de condição. Para construir o AgentIF, coletamos 707 instruções anotadas por humanos em 50 tarefas agentes de agentes de aplicações industriais e sistemas agentes de código aberto. Para cada instrução, anotamos as restrições associadas e as métricas de avaliação correspondentes, incluindo avaliação baseada em código, avaliação baseada em LLM e avaliação híbrida código-LLM. Utilizamos o AgentIF para avaliar sistematicamente LLMs avançados existentes. Observamos que os modelos atuais geralmente têm desempenho ruim, especialmente no tratamento de estruturas de restrições complexas e especificações de ferramentas. Além disso, realizamos análises de erro e experimentos analíticos sobre o comprimento das instruções e meta-restrições, fornecendo algumas descobertas sobre os modos de falha dos LLMs existentes. Disponibilizamos o código e os dados para facilitar pesquisas futuras.
English
Large Language Models (LLMs) have demonstrated advanced capabilities in
real-world agentic applications. Growing research efforts aim to develop
LLM-based agents to address practical demands, introducing a new challenge:
agentic scenarios often involve lengthy instructions with complex constraints,
such as extended system prompts and detailed tool specifications. While
adherence to such instructions is crucial for agentic applications, whether
LLMs can reliably follow them remains underexplored. In this paper, we
introduce AgentIF, the first benchmark for systematically evaluating LLM
instruction following ability in agentic scenarios. AgentIF features three key
characteristics: (1) Realistic, constructed from 50 real-world agentic
applications. (2) Long, averaging 1,723 words with a maximum of 15,630 words.
(3) Complex, averaging 11.9 constraints per instruction, covering diverse
constraint types, such as tool specifications and condition constraints. To
construct AgentIF, we collect 707 human-annotated instructions across 50
agentic tasks from industrial application agents and open-source agentic
systems. For each instruction, we annotate the associated constraints and
corresponding evaluation metrics, including code-based evaluation, LLM-based
evaluation, and hybrid code-LLM evaluation. We use AgentIF to systematically
evaluate existing advanced LLMs. We observe that current models generally
perform poorly, especially in handling complex constraint structures and tool
specifications. We further conduct error analysis and analytical experiments on
instruction length and meta constraints, providing some findings about the
failure modes of existing LLMs. We have released the code and data to
facilitate future research.