ChatPaper.aiChatPaper

AgentIF-OneDay : Un benchmark de suivi d'instructions au niveau des tâches pour les agents d'IA généralistes dans des scénarios quotidiens

AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios

January 28, 2026
papers.authors: Kaiyuan Chen, Qimin Wu, Taiyu Hou, Tianhao Tang, Xueyu Hu, Yuchen Hou, Bikun Li, Chengming Qian, Guoyin Wang, Haolin Chen, Haotong Tian, Haoye Zhang, Haoyu Bian, Hongbing Pan, Hongkang Zhang, Hongyi Zhou, Jiaqi Cai, Jiewu Rao, Jiyuan Ren, Keduan Huang, Lucia Zhu Huang, Mingyu Yuan, Naixu Guo, Qicheng Tang, Qinyan Zhang, Shuai Chen, Siheng Chen, Ting Ting Li, Xiaoxing Guo, Yaocheng Zuo, Yaoqi Guo, Yinan Wang, Yinzhou Yu, Yize Wang, Yuan Jiang, Yuan Tian, Yuanshuo Zhang, Yuxuan Liu, Yvette Yan Zeng, Zenyu Shan, Zihan Yin, Xiaobo Hu, Yang Liu, Yixin Ren, Yuan Gong
cs.AI

papers.abstract

La capacité des agents d'IA à traiter efficacement des tâches de durée et de complexité croissantes continue de progresser, démontrant des performances exceptionnelles dans les évaluations de codage, de recherche approfondie et de résolution de problèmes complexes. Cependant, dans les scénarios quotidiens, la perception de ces capacités avancées d'IA parmi les utilisateurs grand public reste limitée. Nous soutenons que les évaluations actuelles privilégient l'augmentation de la difficulté des tâches sans aborder suffisamment la diversité des tâches agentielles nécessaires pour couvrir les activités quotidiennes de travail, de vie et d'apprentissage d'une large démographie. Pour remédier à cela, nous proposons AgentIF-OneDay, visant à déterminer si les utilisateurs grand public peuvent utiliser des instructions en langage naturel et des agents d'IA pour accomplir un éventail diversifié de tâches quotidiennes. Ces tâches nécessitent non seulement de résoudre des problèmes par le dialogue, mais aussi de comprendre divers types de pièces jointes et de fournir des résultats tangents sous forme de fichiers. Le benchmark est structuré autour de trois catégories centrées sur l'utilisateur : l'Exécution de Workflow Ouvert, qui évalue le respect de workflows explicites et complexes ; l'Instruction Latente, qui exige que les agents infèrent des instructions implicites à partir de pièces jointes ; et le Raffinement Itératif, qui implique de modifier ou d'enrichir un travail en cours. Nous utilisons des grilles d'évaluation au niveau de l'instance et un pipeline d'évaluation raffiné qui aligne la vérification basée sur les LLM avec le jugement humain, atteignant un taux de concordance de 80,1 % avec Gemini-3-Pro. AgentIF-OneDay comprend 104 tâches couvrant 767 points d'évaluation. Nous avons évalué quatre agents d'IA généralistes leaders et constaté que les produits agents construits sur des API et les agents ChatGPT basés sur l'apprentissage par renforcement agentiel se maintiennent simultanément dans le premier tier. Les API de LLM leaders et les modèles open source ont internalisé des capacités agentielles, permettant aux équipes d'applications d'IA de développer des produits Agent à la pointe.
English
The capacity of AI agents to effectively handle tasks of increasing duration and complexity continues to grow, demonstrating exceptional performance in coding, deep research, and complex problem-solving evaluations. However, in daily scenarios, the perception of these advanced AI capabilities among general users remains limited. We argue that current evaluations prioritize increasing task difficulty without sufficiently addressing the diversity of agentic tasks necessary to cover the daily work, life, and learning activities of a broad demographic. To address this, we propose AgentIF-OneDay, aimed at determining whether general users can utilize natural language instructions and AI agents to complete a diverse array of daily tasks. These tasks require not only solving problems through dialogue but also understanding various attachment types and delivering tangible file-based results. The benchmark is structured around three user-centric categories: Open Workflow Execution, which assesses adherence to explicit and complex workflows; Latent Instruction, which requires agents to infer implicit instructions from attachments; and Iterative Refinement, which involves modifying or expanding upon ongoing work. We employ instance-level rubrics and a refined evaluation pipeline that aligns LLM-based verification with human judgment, achieving an 80.1% agreement rate using Gemini-3-Pro. AgentIF-OneDay comprises 104 tasks covering 767 scoring points. We benchmarked four leading general AI agents and found that agent products built based on APIs and ChatGPT agents based on agent RL remain in the first tier simultaneously. Leading LLM APIs and open-source models have internalized agentic capabilities, enabling AI application teams to develop cutting-edge Agent products.
PDF103February 7, 2026