Il Primo Giorno dell'Agente: Benchmark di Apprendimento, Esplorazione e Pianificazione negli Scenari Lavorativi
The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
January 13, 2026
Autori: Daocheng Fu, Jianbiao Mei, Rong Wu, Xuemeng Yang, Jia Xu, Ding Wang, Pinlong Cai, Yong Liu, Licheng Wen, Botian Shi
cs.AI
Abstract
La rapida evoluzione dei Modelli Linguistici Multimodali di Grande Dimensione (MLLM) ha favorito l'automazione dei flussi di lavoro; tuttavia, la ricerca esistente si concentra principalmente sui limiti prestazionali in ambienti statici, trascurando la robustezza necessaria per un dispiegamento stocastico nel mondo reale. Identifichiamo tre sfide chiave: pianificazione dinamica dei task, esplorazione attiva in condizioni di incertezza e apprendimento continuo dall'esperienza. Per colmare questa lacuna, introduciamo , un ambiente di valutazione dinamico che simula un agente "tirocinante" che esplora continuamente un ambiente nuovo. A differenza dei benchmark tradizionali, valuta gli agenti lungo tre dimensioni: (1) schedulazione consapevole del contesto per task in flusso con priorità variabili; (2) acquisizione prudente di informazioni per ridurre le allucinazioni tramite esplorazione attiva; e (3) evoluzione continua attraverso la distillazione di strategie generalizzate da task generati dinamicamente su base rule-based. Gli esperimenti dimostrano che gli agenti all'avanguardia presentano carenze significative in ambienti dinamici, specialmente nell'esplorazione attiva e nell'apprendimento continuo. Il nostro lavoro definisce un quadro per valutare l'affidabilità degli agenti, spostando la valutazione da test statici a scenari realistici orientati alla produzione. I nostri codici sono disponibili su https://github.com/KnowledgeXLab/EvoEnv
English
The rapid evolution of Multi-modal Large Language Models (MLLMs) has advanced workflow automation; however, existing research mainly targets performance upper bounds in static environments, overlooking robustness for stochastic real-world deployment. We identify three key challenges: dynamic task scheduling, active exploration under uncertainty, and continuous learning from experience. To bridge this gap, we introduce , a dynamic evaluation environment that simulates a "trainee" agent continuously exploring a novel setting. Unlike traditional benchmarks, evaluates agents along three dimensions: (1) context-aware scheduling for streaming tasks with varying priorities; (2) prudent information acquisition to reduce hallucination via active exploration; and (3) continuous evolution by distilling generalized strategies from rule-based, dynamically generated tasks. Experiments show that cutting-edge agents have significant deficiencies in dynamic environments, especially in active exploration and continual learning. Our work establishes a framework for assessing agent reliability, shifting evaluation from static tests to realistic, production-oriented scenarios. Our codes are available at https://github.com/KnowledgeXLab/EvoEnv