AgentIF-OneDay: un benchmark di esecuzione di istruzioni a livello di compito per agenti IA generali in scenari quotidiani
AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios
January 28, 2026
Autori: Kaiyuan Chen, Qimin Wu, Taiyu Hou, Tianhao Tang, Xueyu Hu, Yuchen Hou, Bikun Li, Chengming Qian, Guoyin Wang, Haolin Chen, Haotong Tian, Haoye Zhang, Haoyu Bian, Hongbing Pan, Hongkang Zhang, Hongyi Zhou, Jiaqi Cai, Jiewu Rao, Jiyuan Ren, Keduan Huang, Lucia Zhu Huang, Mingyu Yuan, Naixu Guo, Qicheng Tang, Qinyan Zhang, Shuai Chen, Siheng Chen, Ting Ting Li, Xiaoxing Guo, Yaocheng Zuo, Yaoqi Guo, Yinan Wang, Yinzhou Yu, Yize Wang, Yuan Jiang, Yuan Tian, Yuanshuo Zhang, Yuxuan Liu, Yvette Yan Zeng, Zenyu Shan, Zihan Yin, Xiaobo Hu, Yang Liu, Yixin Ren, Yuan Gong
cs.AI
Abstract
La capacità degli agenti di IA di gestire efficacemente compiti di durata e complessità crescenti continua ad aumentare, dimostrando prestazioni eccezionali in valutazioni di coding, ricerca approfondita e problem-solving complesso. Tuttavia, negli scenari quotidiani, la percezione di queste capacità avanzate di IA tra gli utenti generali rimane limitata. Sosteniamo che le valutazioni attuali privilegino l'aumento della difficoltà del compito senza affrontare adeguatamente la diversità dei compiti agentivi necessari per coprire le attività quotidiane di lavoro, vita e apprendimento di un'ampia demografia. Per affrontare ciò, proponiamo AgentIF-OneDay, mirato a determinare se gli utenti generali possano utilizzare istruzioni in linguaggio naturale e agenti di IA per completare una gamma diversificata di compiti quotidiani. Questi compiti richiedono non solo di risolvere problemi attraverso il dialogo, ma anche di comprendere vari tipi di allegati e fornire risultati tangibili basati su file. Il benchmark è strutturato attorno tre categorie centrate sull'utente: Esecuzione di Flusso di Lavoro Aperto, che valuta l'aderenza a flussi di lavoro espliciti e complessi; Istruzione Latente, che richiede agli agenti di dedurre istruzioni implicite dagli allegati; e Affinamento Iterativo, che implica la modifica o l'espansione di lavori in corso. Utilizziamo rubriche a livello di istanza e una pipeline di valutazione raffinata che allinea la verifica basata su LLM con il giudizio umano, raggiungendo un tasso di accordo dell'80,1% utilizzando Gemini-3-Pro. AgentIF-OneDay comprende 104 compiti che coprono 767 punti di valutazione. Abbiamo testato quattro principali agenti di IA generali e abbiamo riscontrato che i prodotti agente costruiti basandosi su API e gli agenti ChatGPT basati su RL agente rimangono simultaneamente nel primo livello. Le principali API di LLM e i modelli open-source hanno interiorizzato capacità agentive, consentendo ai team di applicazioni IA di sviluppare prodotti Agente all'avanguardia.
English
The capacity of AI agents to effectively handle tasks of increasing duration and complexity continues to grow, demonstrating exceptional performance in coding, deep research, and complex problem-solving evaluations. However, in daily scenarios, the perception of these advanced AI capabilities among general users remains limited. We argue that current evaluations prioritize increasing task difficulty without sufficiently addressing the diversity of agentic tasks necessary to cover the daily work, life, and learning activities of a broad demographic. To address this, we propose AgentIF-OneDay, aimed at determining whether general users can utilize natural language instructions and AI agents to complete a diverse array of daily tasks. These tasks require not only solving problems through dialogue but also understanding various attachment types and delivering tangible file-based results. The benchmark is structured around three user-centric categories: Open Workflow Execution, which assesses adherence to explicit and complex workflows; Latent Instruction, which requires agents to infer implicit instructions from attachments; and Iterative Refinement, which involves modifying or expanding upon ongoing work. We employ instance-level rubrics and a refined evaluation pipeline that aligns LLM-based verification with human judgment, achieving an 80.1% agreement rate using Gemini-3-Pro. AgentIF-OneDay comprises 104 tasks covering 767 scoring points. We benchmarked four leading general AI agents and found that agent products built based on APIs and ChatGPT agents based on agent RL remain in the first tier simultaneously. Leading LLM APIs and open-source models have internalized agentic capabilities, enabling AI application teams to develop cutting-edge Agent products.