ChatPaper.aiChatPaper

AGENTIF: Evaluación del Seguimiento de Instrucciones en Modelos de Lenguaje de Gran Escala en Escenarios Agentes

AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios

May 22, 2025
Autores: Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades avanzadas en aplicaciones agentivas del mundo real. Los crecientes esfuerzos de investigación buscan desarrollar agentes basados en LLMs para abordar demandas prácticas, introduciendo un nuevo desafío: los escenarios agentivos a menudo involucran instrucciones extensas con restricciones complejas, como indicaciones de sistema prolongadas y especificaciones detalladas de herramientas. Si bien el cumplimiento de dichas instrucciones es crucial para las aplicaciones agentivas, si los LLMs pueden seguirlas de manera confiable sigue siendo un tema poco explorado. En este artículo, presentamos AgentIF, el primer punto de referencia para evaluar sistemáticamente la capacidad de seguimiento de instrucciones de los LLMs en escenarios agentivos. AgentIF presenta tres características clave: (1) Realista, construido a partir de 50 aplicaciones agentivas del mundo real. (2) Extenso, con un promedio de 1,723 palabras y un máximo de 15,630 palabras. (3) Complejo, con un promedio de 11.9 restricciones por instrucción, cubriendo diversos tipos de restricciones, como especificaciones de herramientas y condiciones. Para construir AgentIF, recopilamos 707 instrucciones anotadas por humanos en 50 tareas agentivas provenientes de agentes de aplicaciones industriales y sistemas agentivos de código abierto. Para cada instrucción, anotamos las restricciones asociadas y las métricas de evaluación correspondientes, incluyendo evaluación basada en código, evaluación basada en LLMs y evaluación híbrida código-LLM. Utilizamos AgentIF para evaluar sistemáticamente los LLMs avanzados existentes. Observamos que los modelos actuales generalmente tienen un desempeño deficiente, especialmente al manejar estructuras de restricciones complejas y especificaciones de herramientas. Además, realizamos análisis de errores y experimentos analíticos sobre la longitud de las instrucciones y las meta-restricciones, proporcionando hallazgos sobre los modos de falla de los LLMs existentes. Hemos liberado el código y los datos para facilitar investigaciones futuras.
English
Large Language Models (LLMs) have demonstrated advanced capabilities in real-world agentic applications. Growing research efforts aim to develop LLM-based agents to address practical demands, introducing a new challenge: agentic scenarios often involve lengthy instructions with complex constraints, such as extended system prompts and detailed tool specifications. While adherence to such instructions is crucial for agentic applications, whether LLMs can reliably follow them remains underexplored. In this paper, we introduce AgentIF, the first benchmark for systematically evaluating LLM instruction following ability in agentic scenarios. AgentIF features three key characteristics: (1) Realistic, constructed from 50 real-world agentic applications. (2) Long, averaging 1,723 words with a maximum of 15,630 words. (3) Complex, averaging 11.9 constraints per instruction, covering diverse constraint types, such as tool specifications and condition constraints. To construct AgentIF, we collect 707 human-annotated instructions across 50 agentic tasks from industrial application agents and open-source agentic systems. For each instruction, we annotate the associated constraints and corresponding evaluation metrics, including code-based evaluation, LLM-based evaluation, and hybrid code-LLM evaluation. We use AgentIF to systematically evaluate existing advanced LLMs. We observe that current models generally perform poorly, especially in handling complex constraint structures and tool specifications. We further conduct error analysis and analytical experiments on instruction length and meta constraints, providing some findings about the failure modes of existing LLMs. We have released the code and data to facilitate future research.
PDF82May 23, 2025