AGENTIF: Evaluación del Seguimiento de Instrucciones en Modelos de Lenguaje de Gran Escala en Escenarios Agentes
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios
May 22, 2025
Autores: Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades avanzadas en aplicaciones agentivas del mundo real. Los crecientes esfuerzos de investigación buscan desarrollar agentes basados en LLMs para abordar demandas prácticas, introduciendo un nuevo desafío: los escenarios agentivos a menudo involucran instrucciones extensas con restricciones complejas, como indicaciones de sistema prolongadas y especificaciones detalladas de herramientas. Si bien el cumplimiento de dichas instrucciones es crucial para las aplicaciones agentivas, si los LLMs pueden seguirlas de manera confiable sigue siendo un tema poco explorado. En este artículo, presentamos AgentIF, el primer punto de referencia para evaluar sistemáticamente la capacidad de seguimiento de instrucciones de los LLMs en escenarios agentivos. AgentIF presenta tres características clave: (1) Realista, construido a partir de 50 aplicaciones agentivas del mundo real. (2) Extenso, con un promedio de 1,723 palabras y un máximo de 15,630 palabras. (3) Complejo, con un promedio de 11.9 restricciones por instrucción, cubriendo diversos tipos de restricciones, como especificaciones de herramientas y condiciones. Para construir AgentIF, recopilamos 707 instrucciones anotadas por humanos en 50 tareas agentivas provenientes de agentes de aplicaciones industriales y sistemas agentivos de código abierto. Para cada instrucción, anotamos las restricciones asociadas y las métricas de evaluación correspondientes, incluyendo evaluación basada en código, evaluación basada en LLMs y evaluación híbrida código-LLM. Utilizamos AgentIF para evaluar sistemáticamente los LLMs avanzados existentes. Observamos que los modelos actuales generalmente tienen un desempeño deficiente, especialmente al manejar estructuras de restricciones complejas y especificaciones de herramientas. Además, realizamos análisis de errores y experimentos analíticos sobre la longitud de las instrucciones y las meta-restricciones, proporcionando hallazgos sobre los modos de falla de los LLMs existentes. Hemos liberado el código y los datos para facilitar investigaciones futuras.
English
Large Language Models (LLMs) have demonstrated advanced capabilities in
real-world agentic applications. Growing research efforts aim to develop
LLM-based agents to address practical demands, introducing a new challenge:
agentic scenarios often involve lengthy instructions with complex constraints,
such as extended system prompts and detailed tool specifications. While
adherence to such instructions is crucial for agentic applications, whether
LLMs can reliably follow them remains underexplored. In this paper, we
introduce AgentIF, the first benchmark for systematically evaluating LLM
instruction following ability in agentic scenarios. AgentIF features three key
characteristics: (1) Realistic, constructed from 50 real-world agentic
applications. (2) Long, averaging 1,723 words with a maximum of 15,630 words.
(3) Complex, averaging 11.9 constraints per instruction, covering diverse
constraint types, such as tool specifications and condition constraints. To
construct AgentIF, we collect 707 human-annotated instructions across 50
agentic tasks from industrial application agents and open-source agentic
systems. For each instruction, we annotate the associated constraints and
corresponding evaluation metrics, including code-based evaluation, LLM-based
evaluation, and hybrid code-LLM evaluation. We use AgentIF to systematically
evaluate existing advanced LLMs. We observe that current models generally
perform poorly, especially in handling complex constraint structures and tool
specifications. We further conduct error analysis and analytical experiments on
instruction length and meta constraints, providing some findings about the
failure modes of existing LLMs. We have released the code and data to
facilitate future research.