AgentIF-OneDay: 일상 시나리오에서 범용 AI 에이전트를 위한 작업 수준 지시 따르기 벤치마크
AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios
January 28, 2026
저자: Kaiyuan Chen, Qimin Wu, Taiyu Hou, Tianhao Tang, Xueyu Hu, Yuchen Hou, Bikun Li, Chengming Qian, Guoyin Wang, Haolin Chen, Haotong Tian, Haoye Zhang, Haoyu Bian, Hongbing Pan, Hongkang Zhang, Hongyi Zhou, Jiaqi Cai, Jiewu Rao, Jiyuan Ren, Keduan Huang, Lucia Zhu Huang, Mingyu Yuan, Naixu Guo, Qicheng Tang, Qinyan Zhang, Shuai Chen, Siheng Chen, Ting Ting Li, Xiaoxing Guo, Yaocheng Zuo, Yaoqi Guo, Yinan Wang, Yinzhou Yu, Yize Wang, Yuan Jiang, Yuan Tian, Yuanshuo Zhang, Yuxuan Liu, Yvette Yan Zeng, Zenyu Shan, Zihan Yin, Xiaobo Hu, Yang Liu, Yixin Ren, Yuan Gong
cs.AI
초록
AI 에이전트의 장기적이고 복잡한 작업 처리 능력은 코딩, 심층 연구, 복잡한 문제 해결 평가에서 우수한 성능을 보이며 지속적으로 성장하고 있습니다. 그러나 일상적인 시나리오에서 일반 사용자들의 이러한 고급 AI 능력에 대한 인식은 여전히 제한적입니다. 본 논문은 현재의 평가가 과제 난이도 증가에 중점을 두는 반면, 다양한 인구통계의 일상적인 업무, 생활, 학습 활동을 포괄하는 데 필요한 에이전트 과제의 다양성을 충분히 다루지 못한다고 주장합니다. 이를 해결하기 위해 우리는 AgentIF-OneDay를 제안하며, 일반 사용자가 자연어 지시와 AI 에이전트를 활용하여 다양한 일상 과제를 완수할 수 있는지 확인하는 것을 목표로 합니다. 이러한 과제는 대화를 통한 문제 해결뿐만 아니라 다양한 첨부 파일 유형을 이해하고 구체적인 파일 기반 결과물을 제공하는 것을 요구합니다. 벤치마크는 사용자 중심의 세 가지 범주로 구성됩니다: 명시적이고 복잡한 워크플로우 준수를 평가하는 '개방형 워크플로우 실행', 첨부 파일에서 암묵적 지시사항을 추론해야 하는 '잠재적 지시', 그리고 진행 중인 작업을 수정하거나 확장하는 '반복적 정교화'입니다. 우리는 인스턴스 수준의 평가 기준과 LLM 기반 검증을 인간의 판단과 조정하는 정교한 평가 파이프라인을 활용하여 Gemini-3-Pro를 사용했을 때 80.1%의 일치율을 달성했습니다. AgentIF-OneDay는 767개의 채점 포인트를涵盖하는 104개의 과제로 구성됩니다. 우리는 4개의 주요 일반 AI 에이전트를 벤치마킹한 결과, API 기반으로 구축된 에이전트 제품과 에이전트 RL 기반의 ChatGPT 에이전트가 동시에 1티어를 유지하는 것을 확인했습니다. 선도적인 LLM API와 오픈소스 모델은 에이전트 능력을 내재화하여 AI 애플리케이션 팀이 최첨단 에이전트 제품을 개발할 수 있도록 합니다.
English
The capacity of AI agents to effectively handle tasks of increasing duration and complexity continues to grow, demonstrating exceptional performance in coding, deep research, and complex problem-solving evaluations. However, in daily scenarios, the perception of these advanced AI capabilities among general users remains limited. We argue that current evaluations prioritize increasing task difficulty without sufficiently addressing the diversity of agentic tasks necessary to cover the daily work, life, and learning activities of a broad demographic. To address this, we propose AgentIF-OneDay, aimed at determining whether general users can utilize natural language instructions and AI agents to complete a diverse array of daily tasks. These tasks require not only solving problems through dialogue but also understanding various attachment types and delivering tangible file-based results. The benchmark is structured around three user-centric categories: Open Workflow Execution, which assesses adherence to explicit and complex workflows; Latent Instruction, which requires agents to infer implicit instructions from attachments; and Iterative Refinement, which involves modifying or expanding upon ongoing work. We employ instance-level rubrics and a refined evaluation pipeline that aligns LLM-based verification with human judgment, achieving an 80.1% agreement rate using Gemini-3-Pro. AgentIF-OneDay comprises 104 tasks covering 767 scoring points. We benchmarked four leading general AI agents and found that agent products built based on APIs and ChatGPT agents based on agent RL remain in the first tier simultaneously. Leading LLM APIs and open-source models have internalized agentic capabilities, enabling AI application teams to develop cutting-edge Agent products.