ChatPaper.aiChatPaper

AgentIF-OneDay: Eine aufgabenbezogene Befolgbarkeits-Benchmark für allgemeine KI-Agenten in Alltagsszenarien

AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios

January 28, 2026
papers.authors: Kaiyuan Chen, Qimin Wu, Taiyu Hou, Tianhao Tang, Xueyu Hu, Yuchen Hou, Bikun Li, Chengming Qian, Guoyin Wang, Haolin Chen, Haotong Tian, Haoye Zhang, Haoyu Bian, Hongbing Pan, Hongkang Zhang, Hongyi Zhou, Jiaqi Cai, Jiewu Rao, Jiyuan Ren, Keduan Huang, Lucia Zhu Huang, Mingyu Yuan, Naixu Guo, Qicheng Tang, Qinyan Zhang, Shuai Chen, Siheng Chen, Ting Ting Li, Xiaoxing Guo, Yaocheng Zuo, Yaoqi Guo, Yinan Wang, Yinzhou Yu, Yize Wang, Yuan Jiang, Yuan Tian, Yuanshuo Zhang, Yuxuan Liu, Yvette Yan Zeng, Zenyu Shan, Zihan Yin, Xiaobo Hu, Yang Liu, Yixin Ren, Yuan Gong
cs.AI

papers.abstract

Die Fähigkeit von KI-Agenten, Aufgaben mit zunehmender Dauer und Komplexität effektiv zu bewältigen, wächst stetig und zeigt außergewöhnliche Leistungen in den Bereichen Programmierung, tiefgehende Recherche und komplexe Problemlösungsbewertungen. Im Alltagsszenario bleibt die Wahrnehmung dieser fortgeschrittenen KI-Fähigkeiten unter allgemeinen Anwendern jedoch begrenzt. Wir vertreten die Auffassung, dass aktuelle Evaluationen die Steigerung der Aufgabenschwierigkeit priorisieren, ohne ausreichend die Vielfalt agentenbasierter Aufgaben zu berücksichtigen, die notwendig ist, um die täglichen Arbeits-, Lebens- und Lernaktivitäten einer breiten Demografie abzudecken. Um dies zu adressieren, schlagen wir AgentIF-OneDay vor, das darauf abzielt festzustellen, ob allgemeine Anwender natürliche Sprachbefehle und KI-Agenten nutzen können, um ein diverses Spektrum täglicher Aufgaben zu bewältigen. Diese Aufgaben erfordern nicht nur die Lösung von Problemen durch Dialog, sondern auch das Verständnis verschiedener Anhangtypen und die Lieferung konkreter dateibasierter Ergebnisse. Der Benchmark ist um drei anwenderzentrierte Kategorien strukturiert: Open Workflow Execution, welches die Einhaltung expliziter und komplexer Arbeitsabläufe bewertet; Latent Instruction, das von Agenten verlangt, implizite Anweisungen aus Anhängen abzuleiten; und Iterative Refinement, das die Modifikation oder Erweiterung laufender Arbeiten umfasst. Wir verwenden instanzbasierte Bewertungsraster und eine verfeinerte Evaluierungspipeline, die LLM-basierte Verifikation mit menschlicher Beurteilung in Einklang bringt und eine Übereinstimmungsrate von 80,1 % mit Gemini-3-Pro erreicht. AgentIF-OneDay umfasst 104 Aufgaben mit 767 Bewertungspunkten. Wir haben vier führende allgemeine KI-Agenten benchmarkgetestet und festgestellt, dass auf APIs basierende Agentenprodukte und auf Agent-RL basierende ChatGPT-Agenten gleichzeitig in der ersten Leistungsklasse verbleiben. Führende LLM-APIs und Open-Source-Modelle haben agentenbasierte Fähigkeiten internalisiert, was KI-Anwendungsteams ermöglicht, wegweisende Agentenprodukte zu entwickeln.
English
The capacity of AI agents to effectively handle tasks of increasing duration and complexity continues to grow, demonstrating exceptional performance in coding, deep research, and complex problem-solving evaluations. However, in daily scenarios, the perception of these advanced AI capabilities among general users remains limited. We argue that current evaluations prioritize increasing task difficulty without sufficiently addressing the diversity of agentic tasks necessary to cover the daily work, life, and learning activities of a broad demographic. To address this, we propose AgentIF-OneDay, aimed at determining whether general users can utilize natural language instructions and AI agents to complete a diverse array of daily tasks. These tasks require not only solving problems through dialogue but also understanding various attachment types and delivering tangible file-based results. The benchmark is structured around three user-centric categories: Open Workflow Execution, which assesses adherence to explicit and complex workflows; Latent Instruction, which requires agents to infer implicit instructions from attachments; and Iterative Refinement, which involves modifying or expanding upon ongoing work. We employ instance-level rubrics and a refined evaluation pipeline that aligns LLM-based verification with human judgment, achieving an 80.1% agreement rate using Gemini-3-Pro. AgentIF-OneDay comprises 104 tasks covering 767 scoring points. We benchmarked four leading general AI agents and found that agent products built based on APIs and ChatGPT agents based on agent RL remain in the first tier simultaneously. Leading LLM APIs and open-source models have internalized agentic capabilities, enabling AI application teams to develop cutting-edge Agent products.
PDF103February 7, 2026