ChatPaper.aiChatPaper

AgentIF-OneDay: Бенчмарк для оценки выполнения инструкций на уровне задач общими ИИ-агентами в повседневных сценариях

AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios

January 28, 2026
Авторы: Kaiyuan Chen, Qimin Wu, Taiyu Hou, Tianhao Tang, Xueyu Hu, Yuchen Hou, Bikun Li, Chengming Qian, Guoyin Wang, Haolin Chen, Haotong Tian, Haoye Zhang, Haoyu Bian, Hongbing Pan, Hongkang Zhang, Hongyi Zhou, Jiaqi Cai, Jiewu Rao, Jiyuan Ren, Keduan Huang, Lucia Zhu Huang, Mingyu Yuan, Naixu Guo, Qicheng Tang, Qinyan Zhang, Shuai Chen, Siheng Chen, Ting Ting Li, Xiaoxing Guo, Yaocheng Zuo, Yaoqi Guo, Yinan Wang, Yinzhou Yu, Yize Wang, Yuan Jiang, Yuan Tian, Yuanshuo Zhang, Yuxuan Liu, Yvette Yan Zeng, Zenyu Shan, Zihan Yin, Xiaobo Hu, Yang Liu, Yixin Ren, Yuan Gong
cs.AI

Аннотация

Способность ИИ-агентов эффективно справляться с задачами возрастающей продолжительности и сложности продолжает расти, демонстрируя исключительную производительность в кодировании, глубоких исследованиях и комплексных оценках решения проблем. Однако в повседневных сценариях восприятие этих передовых возможностей ИИ среди обычных пользователей остается ограниченным. Мы утверждаем, что текущие оценки делают приоритет на увеличении сложности задач, без достаточного учета разнообразия агентских задач, необходимых для охвата повседневной работы, жизни и учебной деятельности широких демографических групп. Чтобы решить эту проблему, мы предлагаем AgentIF-OneDay, цель которого — определить, могут ли обычные пользователи использовать инструкции на естественном языке и ИИ-агентов для выполнения разнообразного спектра повседневных задач. Эти задачи требуют не только решения проблем через диалог, но и понимания различных типов вложений и предоставления ощутимых файловых результатов. Бенчмарк структурирован вокруг трех пользовательских категорий: Выполнение открытых рабочих процессов, которое оценивает соблюдение явных и сложных workflow; Скрытая инструкция, требующая от агентов выведения неявных указаний из вложений; и Итеративное улучшение, которое предполагает модификацию или расширение текущей работы. Мы используем рубрики на уровне экземпляров и усовершенствованный конвейер оценки, который согласует проверку на основе LLM с человеческим суждением, достигая 80.1% уровня согласия с использованием Gemini-3-Pro. AgentIF-OneDay включает 104 задачи, охватывающих 767 оценочных пунктов. Мы провели тестирование четырех ведущих универсальных ИИ-агентов и обнаружили, что агентские продукты, построенные на основе API, и ChatGPT-агенты на основе агентского RL остаются одновременно в первом эшелоне. Ведущие LLM API и модели с открытым исходным кодом интериоризировали агентские возможности, позволяя командам разработчиков ИИ-приложений создавать передовые Agent-продукты.
English
The capacity of AI agents to effectively handle tasks of increasing duration and complexity continues to grow, demonstrating exceptional performance in coding, deep research, and complex problem-solving evaluations. However, in daily scenarios, the perception of these advanced AI capabilities among general users remains limited. We argue that current evaluations prioritize increasing task difficulty without sufficiently addressing the diversity of agentic tasks necessary to cover the daily work, life, and learning activities of a broad demographic. To address this, we propose AgentIF-OneDay, aimed at determining whether general users can utilize natural language instructions and AI agents to complete a diverse array of daily tasks. These tasks require not only solving problems through dialogue but also understanding various attachment types and delivering tangible file-based results. The benchmark is structured around three user-centric categories: Open Workflow Execution, which assesses adherence to explicit and complex workflows; Latent Instruction, which requires agents to infer implicit instructions from attachments; and Iterative Refinement, which involves modifying or expanding upon ongoing work. We employ instance-level rubrics and a refined evaluation pipeline that aligns LLM-based verification with human judgment, achieving an 80.1% agreement rate using Gemini-3-Pro. AgentIF-OneDay comprises 104 tasks covering 767 scoring points. We benchmarked four leading general AI agents and found that agent products built based on APIs and ChatGPT agents based on agent RL remain in the first tier simultaneously. Leading LLM APIs and open-source models have internalized agentic capabilities, enabling AI application teams to develop cutting-edge Agent products.
PDF103February 7, 2026