ChatPaper.aiChatPaper

Le Premier Jour de l'Agent : Évaluation de l'Apprentissage, de l'Exploration et de la Planification dans les Scénarios Professionnels

The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

January 13, 2026
papers.authors: Daocheng Fu, Jianbiao Mei, Rong Wu, Xuemeng Yang, Jia Xu, Ding Wang, Pinlong Cai, Yong Liu, Licheng Wen, Botian Shi
cs.AI

papers.abstract

L'évolution rapide des modèles de langage de grande taille multimodaux (MLLM) a fait progresser l'automatisation des flux de travail ; cependant, les recherches existantes visent principalement les limites supérieures de performance dans des environnements statiques, négligeant la robustesse nécessaire pour un déploiement réel stochastique. Nous identifions trois défis majeurs : l'ordonnancement dynamique des tâches, l'exploration active face à l'incertitude et l'apprentissage continu à partir de l'expérience. Pour combler cette lacune, nous présentons , un environnement d'évaluation dynamique qui simule un agent « stagiaire » explorant continuellement un cadre nouveau. Contrairement aux benchmarks traditionnels, évalue les agents selon trois dimensions : (1) l'ordonnancement contextuel pour des tâches en flux avec des priorités variables ; (2) l'acquisition prudente d'information pour réduire les hallucinations via une exploration active ; et (3) l'évolution continue en distillant des stratégies généralisées à partir de tâches générées dynamiquement et basées sur des règles. Les expériences montrent que les agents de pointe présentent des lacunes significatives dans des environnements dynamiques, particulièrement en exploration active et en apprentissage continu. Notre travail établit un cadre pour évaluer la fiabilité des agents, faisant passer l'évaluation de tests statiques à des scénarios réalistes et orientés production. Nos codes sont disponibles à l'adresse https://github.com/KnowledgeXLab/EvoEnv.
English
The rapid evolution of Multi-modal Large Language Models (MLLMs) has advanced workflow automation; however, existing research mainly targets performance upper bounds in static environments, overlooking robustness for stochastic real-world deployment. We identify three key challenges: dynamic task scheduling, active exploration under uncertainty, and continuous learning from experience. To bridge this gap, we introduce , a dynamic evaluation environment that simulates a "trainee" agent continuously exploring a novel setting. Unlike traditional benchmarks, evaluates agents along three dimensions: (1) context-aware scheduling for streaming tasks with varying priorities; (2) prudent information acquisition to reduce hallucination via active exploration; and (3) continuous evolution by distilling generalized strategies from rule-based, dynamically generated tasks. Experiments show that cutting-edge agents have significant deficiencies in dynamic environments, especially in active exploration and continual learning. Our work establishes a framework for assessing agent reliability, shifting evaluation from static tests to realistic, production-oriented scenarios. Our codes are available at https://github.com/KnowledgeXLab/EvoEnv
PDF92February 8, 2026