Il Primo Giorno dell'Agente: Benchmark di Apprendimento, Esplorazione e Pianificazione negli Scenari Lavorativi

Abstract

La rapida evoluzione dei Modelli Linguistici Multimodali di Grande Dimensione (MLLM) ha favorito l'automazione dei flussi di lavoro; tuttavia, la ricerca esistente si concentra principalmente sui limiti prestazionali in ambienti statici, trascurando la robustezza necessaria per un dispiegamento stocastico nel mondo reale. Identifichiamo tre sfide chiave: pianificazione dinamica dei task, esplorazione attiva in condizioni di incertezza e apprendimento continuo dall'esperienza. Per colmare questa lacuna, introduciamo , un ambiente di valutazione dinamico che simula un agente "tirocinante" che esplora continuamente un ambiente nuovo. A differenza dei benchmark tradizionali, valuta gli agenti lungo tre dimensioni: (1) schedulazione consapevole del contesto per task in flusso con priorità variabili; (2) acquisizione prudente di informazioni per ridurre le allucinazioni tramite esplorazione attiva; e (3) evoluzione continua attraverso la distillazione di strategie generalizzate da task generati dinamicamente su base rule-based. Gli esperimenti dimostrano che gli agenti all'avanguardia presentano carenze significative in ambienti dinamici, specialmente nell'esplorazione attiva e nell'apprendimento continuo. Il nostro lavoro definisce un quadro per valutare l'affidabilità degli agenti, spostando la valutazione da test statici a scenari realistici orientati alla produzione. I nostri codici sono disponibili su https://github.com/KnowledgeXLab/EvoEnv

English

The rapid evolution of Multi-modal Large Language Models (MLLMs) has advanced workflow automation; however, existing research mainly targets performance upper bounds in static environments, overlooking robustness for stochastic real-world deployment. We identify three key challenges: dynamic task scheduling, active exploration under uncertainty, and continuous learning from experience. To bridge this gap, we introduce , a dynamic evaluation environment that simulates a "trainee" agent continuously exploring a novel setting. Unlike traditional benchmarks, evaluates agents along three dimensions: (1) context-aware scheduling for streaming tasks with varying priorities; (2) prudent information acquisition to reduce hallucination via active exploration; and (3) continuous evolution by distilling generalized strategies from rule-based, dynamically generated tasks. Experiments show that cutting-edge agents have significant deficiencies in dynamic environments, especially in active exploration and continual learning. Our work establishes a framework for assessing agent reliability, shifting evaluation from static tests to realistic, production-oriented scenarios. Our codes are available at https://github.com/KnowledgeXLab/EvoEnv

Il Primo Giorno dell'Agente: Benchmark di Apprendimento, Esplorazione e Pianificazione negli Scenari Lavorativi

The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

Abstract

Support