AGENTIF: Оценка способности крупных языковых моделей следовать инструкциям в агентных сценариях
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios
May 22, 2025
Авторы: Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали передовые возможности в реальных агентских приложениях. Растущие исследовательские усилия направлены на разработку агентов на основе LLM для удовлетворения практических потребностей, что вводит новую проблему: агентские сценарии часто включают длинные инструкции со сложными ограничениями, такими как расширенные системные промпты и детальные спецификации инструментов. Хотя соблюдение таких инструкций крайне важно для агентских приложений, вопрос о том, могут ли LLM надежно следовать им, остается недостаточно изученным. В данной статье мы представляем AgentIF — первый бенчмарк для систематической оценки способности LLM следовать инструкциям в агентских сценариях. AgentIF обладает тремя ключевыми характеристиками: (1) Реалистичность, построен на основе 50 реальных агентских приложений. (2) Длина, в среднем 1723 слова с максимумом 15 630 слов. (3) Сложность, в среднем 11,9 ограничений на инструкцию, охватывающих разнообразные типы ограничений, такие как спецификации инструментов и условные ограничения. Для создания AgentIF мы собрали 707 инструкций с аннотациями, выполненных людьми, для 50 агентских задач из промышленных приложений и открытых агентских систем. Для каждой инструкции мы аннотировали связанные ограничения и соответствующие метрики оценки, включая оценку на основе кода, оценку на основе LLM и гибридную оценку код-LLM. Мы используем AgentIF для систематической оценки существующих передовых LLM. Мы наблюдаем, что текущие модели в целом показывают низкую производительность, особенно в обработке сложных структур ограничений и спецификаций инструментов. Мы также проводим анализ ошибок и аналитические эксперименты по длине инструкций и мета-ограничениям, предоставляя некоторые выводы о причинах сбоев существующих LLM. Мы опубликовали код и данные для содействия будущим исследованиям.
English
Large Language Models (LLMs) have demonstrated advanced capabilities in
real-world agentic applications. Growing research efforts aim to develop
LLM-based agents to address practical demands, introducing a new challenge:
agentic scenarios often involve lengthy instructions with complex constraints,
such as extended system prompts and detailed tool specifications. While
adherence to such instructions is crucial for agentic applications, whether
LLMs can reliably follow them remains underexplored. In this paper, we
introduce AgentIF, the first benchmark for systematically evaluating LLM
instruction following ability in agentic scenarios. AgentIF features three key
characteristics: (1) Realistic, constructed from 50 real-world agentic
applications. (2) Long, averaging 1,723 words with a maximum of 15,630 words.
(3) Complex, averaging 11.9 constraints per instruction, covering diverse
constraint types, such as tool specifications and condition constraints. To
construct AgentIF, we collect 707 human-annotated instructions across 50
agentic tasks from industrial application agents and open-source agentic
systems. For each instruction, we annotate the associated constraints and
corresponding evaluation metrics, including code-based evaluation, LLM-based
evaluation, and hybrid code-LLM evaluation. We use AgentIF to systematically
evaluate existing advanced LLMs. We observe that current models generally
perform poorly, especially in handling complex constraint structures and tool
specifications. We further conduct error analysis and analytical experiments on
instruction length and meta constraints, providing some findings about the
failure modes of existing LLMs. We have released the code and data to
facilitate future research.Summary
AI-Generated Summary