エージェントの初日:職場シナリオにおける学習、探索、スケジューリングのベンチマーク
The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
January 13, 2026
著者: Daocheng Fu, Jianbiao Mei, Rong Wu, Xuemeng Yang, Jia Xu, Ding Wang, Pinlong Cai, Yong Liu, Licheng Wen, Botian Shi
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)の急速な進化はワークフロー自動化を推進してきたが、既存研究は静的环境における性能上限を主対象とし、確率的な現実環境でのロバスト性を見落としている。我々は3つの核心的課題を特定した:動的タスクスケジューリング、不確実性下での能動的探索、経験からの継続的学習である。この隔たりを埋めるため、新規環境を継続的に探索する「トレーニー」エージェントをシミュレートする動的評価環境 を提案する。従来のベンチマークと異なり、 は3次元でエージェントを評価する:(1) 優先度が変動するストリーミングタスクに対する文脈対応型スケジューリング、(2) 能動的探索による幻覚生成抑制のための慎重な情報獲得、(3) ルールベースで動的に生成されるタスクから一般化戦略を蒸留する継続的進化。実験により、最先端エージェントが動的環境、特に能動的探索と継続的学習において重大な欠陥を有することを示す。本研究はエージェント信頼性評価の枠組みを確立し、静的テストから現実的な実稼働指向シナリオへの評価パラダイムシフトを促す。コードはhttps://github.com/KnowledgeXLab/EvoEnvで公開されている。
English
The rapid evolution of Multi-modal Large Language Models (MLLMs) has advanced workflow automation; however, existing research mainly targets performance upper bounds in static environments, overlooking robustness for stochastic real-world deployment. We identify three key challenges: dynamic task scheduling, active exploration under uncertainty, and continuous learning from experience. To bridge this gap, we introduce , a dynamic evaluation environment that simulates a "trainee" agent continuously exploring a novel setting. Unlike traditional benchmarks, evaluates agents along three dimensions: (1) context-aware scheduling for streaming tasks with varying priorities; (2) prudent information acquisition to reduce hallucination via active exploration; and (3) continuous evolution by distilling generalized strategies from rule-based, dynamically generated tasks. Experiments show that cutting-edge agents have significant deficiencies in dynamic environments, especially in active exploration and continual learning. Our work establishes a framework for assessing agent reliability, shifting evaluation from static tests to realistic, production-oriented scenarios. Our codes are available at https://github.com/KnowledgeXLab/EvoEnv