ChatPaper.aiChatPaper

AgentIF-OneDay:日常生活シナリオにおける汎用AIエージェントのタスクレベル指示追従ベンチマーク

AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios

January 28, 2026
著者: Kaiyuan Chen, Qimin Wu, Taiyu Hou, Tianhao Tang, Xueyu Hu, Yuchen Hou, Bikun Li, Chengming Qian, Guoyin Wang, Haolin Chen, Haotong Tian, Haoye Zhang, Haoyu Bian, Hongbing Pan, Hongkang Zhang, Hongyi Zhou, Jiaqi Cai, Jiewu Rao, Jiyuan Ren, Keduan Huang, Lucia Zhu Huang, Mingyu Yuan, Naixu Guo, Qicheng Tang, Qinyan Zhang, Shuai Chen, Siheng Chen, Ting Ting Li, Xiaoxing Guo, Yaocheng Zuo, Yaoqi Guo, Yinan Wang, Yinzhou Yu, Yize Wang, Yuan Jiang, Yuan Tian, Yuanshuo Zhang, Yuxuan Liu, Yvette Yan Zeng, Zenyu Shan, Zihan Yin, Xiaobo Hu, Yang Liu, Yixin Ren, Yuan Gong
cs.AI

要旨

AIエージェントが、より長時間かつ複雑なタスクを効果的に処理する能力は継続的に向上しており、コーディング、深層研究、複雑な問題解決の評価において卓越したパフォーマンスを示している。しかし、日常的な場面では、一般ユーザーにおけるこれらの高度なAI能力への認識は依然として限定的である。我々は、現在の評価基準がタスクの難易度向上を優先する一方で、広範な層の日常的な仕事、生活、学習活動をカバーするために必要な、エージェントタスクの多様性に十分に対処できていないと主張する。この問題に対処するため、我々はAgentIF-OneDayを提案する。これは、一般ユーザーが自然言語による指示とAIエージェントを利用して、多種多様な日常タスクを完了できるかどうかを判断することを目的としている。これらのタスクは、対話を通じて問題を解決するだけでなく、様々な種類の添付ファイルを理解し、具体的なファイルベースの結果を提供することを要求する。本ベンチマークは、ユーザー中心の3つのカテゴリを中心に構成されている:明示的かつ複雑なワークフローへの準拠を評価する「オープンワークフロー実行」、添付ファイルから暗黙の指示を推論することを要求する「潜在指示」、進行中の作業を修正または拡張することを含む「反復的な改良」である。我々は、インスタンスレベルの評価基準と、LLMベースの検証と人間の判断を一致させる改良された評価パイプラインを採用し、Gemini-3-Proを使用して80.1%の一致率を達成した。AgentIF-OneDayは、767の評価ポイントをカバーする104のタスクで構成される。我々は4つの主要な汎用AIエージェントをベンチマークし、APIベースで構築されたエージェント製品と、エージェントRLベースのChatGPTエージェントが同時に第一階層に留まっていることを発見した。主要なLLM APIとオープンソースモデルはエージェント機能を内包しており、AIアプリケーションチームが最先端のエージェント製品を開発することを可能にしている。
English
The capacity of AI agents to effectively handle tasks of increasing duration and complexity continues to grow, demonstrating exceptional performance in coding, deep research, and complex problem-solving evaluations. However, in daily scenarios, the perception of these advanced AI capabilities among general users remains limited. We argue that current evaluations prioritize increasing task difficulty without sufficiently addressing the diversity of agentic tasks necessary to cover the daily work, life, and learning activities of a broad demographic. To address this, we propose AgentIF-OneDay, aimed at determining whether general users can utilize natural language instructions and AI agents to complete a diverse array of daily tasks. These tasks require not only solving problems through dialogue but also understanding various attachment types and delivering tangible file-based results. The benchmark is structured around three user-centric categories: Open Workflow Execution, which assesses adherence to explicit and complex workflows; Latent Instruction, which requires agents to infer implicit instructions from attachments; and Iterative Refinement, which involves modifying or expanding upon ongoing work. We employ instance-level rubrics and a refined evaluation pipeline that aligns LLM-based verification with human judgment, achieving an 80.1% agreement rate using Gemini-3-Pro. AgentIF-OneDay comprises 104 tasks covering 767 scoring points. We benchmarked four leading general AI agents and found that agent products built based on APIs and ChatGPT agents based on agent RL remain in the first tier simultaneously. Leading LLM APIs and open-source models have internalized agentic capabilities, enabling AI application teams to develop cutting-edge Agent products.
PDF103February 7, 2026