ChatPaper.aiChatPaper

AgentIF-OneDay: Um Benchmark de Seguimento de Instruções em Nível de Tarefa para Agentes de IA Geral em Cenários Diários

AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios

January 28, 2026
Autores: Kaiyuan Chen, Qimin Wu, Taiyu Hou, Tianhao Tang, Xueyu Hu, Yuchen Hou, Bikun Li, Chengming Qian, Guoyin Wang, Haolin Chen, Haotong Tian, Haoye Zhang, Haoyu Bian, Hongbing Pan, Hongkang Zhang, Hongyi Zhou, Jiaqi Cai, Jiewu Rao, Jiyuan Ren, Keduan Huang, Lucia Zhu Huang, Mingyu Yuan, Naixu Guo, Qicheng Tang, Qinyan Zhang, Shuai Chen, Siheng Chen, Ting Ting Li, Xiaoxing Guo, Yaocheng Zuo, Yaoqi Guo, Yinan Wang, Yinzhou Yu, Yize Wang, Yuan Jiang, Yuan Tian, Yuanshuo Zhang, Yuxuan Liu, Yvette Yan Zeng, Zenyu Shan, Zihan Yin, Xiaobo Hu, Yang Liu, Yixin Ren, Yuan Gong
cs.AI

Resumo

A capacidade dos agentes de IA para lidar eficazmente com tarefas de duração e complexidade crescentes continua a aumentar, demonstrando um desempenho excecional em avaliações de codificação, pesquisa aprofundada e resolução complexa de problemas. No entanto, em cenários do dia a dia, a perceção destas capacidades avançadas de IA entre os utilizadores em geral permanece limitada. Argumentamos que as avaliações atuais priorizam o aumento da dificuldade das tarefas sem abordar suficientemente a diversidade de tarefas agentivas necessárias para abranger as atividades diárias de trabalho, vida e aprendizagem de um amplo demográfico. Para resolver esta lacuna, propomos o AgentIF-OneDay, que visa determinar se os utilizadores em geral podem utilizar instruções em linguagem natural e agentes de IA para completar uma diversificada gama de tarefas diárias. Estas tarefas exigem não apenas resolver problemas através de diálogo, mas também compreender vários tipos de anexos e entregar resultados tangíveis baseados em ficheiros. O benchmark está estruturado em torno de três categorias centradas no utilizador: Execução de Fluxo de Trabalho Aberto, que avalia a adesão a fluxos de trabalho explícitos e complexos; Instrução Latente, que requer que os agentes infiram instruções implícitas a partir de anexos; e Refinamento Iterativo, que envolve modificar ou expandir trabalhos em curso. Empregamos rubricas a nível de instância e um pipeline de avaliação refinado que alinha a verificação baseada em LLM com o julgamento humano, alcançando uma taxa de concordância de 80,1% com o Gemini-3-Pro. O AgentIF-OneDay compreende 104 tarefas que abrangem 767 pontos de avaliação. Avaliámos quatro dos principais agentes de IA de uso geral e descobrimos que os produtos agentes construídos com base em APIs e os agentes ChatGPT baseados em RL (aprendizagem por reforço) de agentes permanecem simultaneamente no primeiro escalão. As principais APIs de LLM e os modelos de código aberto internalizaram capacidades agentivas, permitindo que equipas de aplicações de IA desenvolvam produtos Agentes de ponta.
English
The capacity of AI agents to effectively handle tasks of increasing duration and complexity continues to grow, demonstrating exceptional performance in coding, deep research, and complex problem-solving evaluations. However, in daily scenarios, the perception of these advanced AI capabilities among general users remains limited. We argue that current evaluations prioritize increasing task difficulty without sufficiently addressing the diversity of agentic tasks necessary to cover the daily work, life, and learning activities of a broad demographic. To address this, we propose AgentIF-OneDay, aimed at determining whether general users can utilize natural language instructions and AI agents to complete a diverse array of daily tasks. These tasks require not only solving problems through dialogue but also understanding various attachment types and delivering tangible file-based results. The benchmark is structured around three user-centric categories: Open Workflow Execution, which assesses adherence to explicit and complex workflows; Latent Instruction, which requires agents to infer implicit instructions from attachments; and Iterative Refinement, which involves modifying or expanding upon ongoing work. We employ instance-level rubrics and a refined evaluation pipeline that aligns LLM-based verification with human judgment, achieving an 80.1% agreement rate using Gemini-3-Pro. AgentIF-OneDay comprises 104 tasks covering 767 scoring points. We benchmarked four leading general AI agents and found that agent products built based on APIs and ChatGPT agents based on agent RL remain in the first tier simultaneously. Leading LLM APIs and open-source models have internalized agentic capabilities, enabling AI application teams to develop cutting-edge Agent products.
PDF104March 12, 2026