AgentIF-OneDay: Un Benchmark de Seguimiento de Instrucciones a Nivel de Tarea para Agentes de IA General en Escenarios Cotidianos
AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios
January 28, 2026
Autores: Kaiyuan Chen, Qimin Wu, Taiyu Hou, Tianhao Tang, Xueyu Hu, Yuchen Hou, Bikun Li, Chengming Qian, Guoyin Wang, Haolin Chen, Haotong Tian, Haoye Zhang, Haoyu Bian, Hongbing Pan, Hongkang Zhang, Hongyi Zhou, Jiaqi Cai, Jiewu Rao, Jiyuan Ren, Keduan Huang, Lucia Zhu Huang, Mingyu Yuan, Naixu Guo, Qicheng Tang, Qinyan Zhang, Shuai Chen, Siheng Chen, Ting Ting Li, Xiaoxing Guo, Yaocheng Zuo, Yaoqi Guo, Yinan Wang, Yinzhou Yu, Yize Wang, Yuan Jiang, Yuan Tian, Yuanshuo Zhang, Yuxuan Liu, Yvette Yan Zeng, Zenyu Shan, Zihan Yin, Xiaobo Hu, Yang Liu, Yixin Ren, Yuan Gong
cs.AI
Resumen
La capacidad de los agentes de IA para manejar eficazmente tareas de duración y complejidad crecientes sigue aumentando, demostrando un rendimiento excepcional en evaluaciones de codificación, investigación profunda y resolución de problemas complejos. Sin embargo, en escenarios cotidianos, la percepción de estas capacidades avanzadas de IA entre los usuarios generales sigue siendo limitada. Sostenemos que las evaluaciones actuales priorizan el aumento de la dificultad de las tareas sin abordar suficientemente la diversidad de tareas agentivas necesarias para cubrir las actividades diarias de trabajo, vida y aprendizaje de una amplia demografía. Para abordar esto, proponemos AgentIF-OneDay, cuyo objetivo es determinar si los usuarios generales pueden utilizar instrucciones en lenguaje natural y agentes de IA para completar una diversa gama de tareas diarias. Estas tareas requieren no solo resolver problemas mediante el diálogo, sino también comprender varios tipos de archivos adjuntos y entregar resultados tangibles basados en archivos. El benchmark está estructurado en torno a tres categorías centradas en el usuario: Ejecución de Flujos de Trabajo Abiertos, que evalúa la adherencia a flujos de trabajo explícitos y complejos; Instrucción Latente, que requiere que los agentes infieran instrucciones implícitas a partir de archivos adjuntos; y Refinamiento Iterativo, que implica modificar o expandir el trabajo en curso. Empleamos rúbricas a nivel de instancia y una canalización de evaluación refinada que alinea la verificación basada en LLM con el criterio humano, logrando una tasa de concordancia del 80.1% utilizando Gemini-3-Pro. AgentIF-OneDay comprende 104 tareas que cubren 767 puntos de evaluación. Evaluamos cuatro agentes de IA generales líderes y encontramos que los productos agentes construidos basados en APIs y los agentes ChatGPT basados en RL agentico permanecen simultáneamente en el primer nivel. Las APIs de LLM líderes y los modelos de código abierto han internalizado capacidades agentivas, permitiendo a los equipos de aplicaciones de IA desarrollar productos Agente de vanguardia.
English
The capacity of AI agents to effectively handle tasks of increasing duration and complexity continues to grow, demonstrating exceptional performance in coding, deep research, and complex problem-solving evaluations. However, in daily scenarios, the perception of these advanced AI capabilities among general users remains limited. We argue that current evaluations prioritize increasing task difficulty without sufficiently addressing the diversity of agentic tasks necessary to cover the daily work, life, and learning activities of a broad demographic. To address this, we propose AgentIF-OneDay, aimed at determining whether general users can utilize natural language instructions and AI agents to complete a diverse array of daily tasks. These tasks require not only solving problems through dialogue but also understanding various attachment types and delivering tangible file-based results. The benchmark is structured around three user-centric categories: Open Workflow Execution, which assesses adherence to explicit and complex workflows; Latent Instruction, which requires agents to infer implicit instructions from attachments; and Iterative Refinement, which involves modifying or expanding upon ongoing work. We employ instance-level rubrics and a refined evaluation pipeline that aligns LLM-based verification with human judgment, achieving an 80.1% agreement rate using Gemini-3-Pro. AgentIF-OneDay comprises 104 tasks covering 767 scoring points. We benchmarked four leading general AI agents and found that agent products built based on APIs and ChatGPT agents based on agent RL remain in the first tier simultaneously. Leading LLM APIs and open-source models have internalized agentic capabilities, enabling AI application teams to develop cutting-edge Agent products.