De eerste dag van de agent: prestaties meten op het gebied van leren, verkenning en planning in werkscenario's

Samenvatting

De snelle evolutie van Multi-modale Large Language Models (MLLM's) heeft workflowautomatisering vooruitgeholpen; bestaand onderzoek richt zich echter voornamelijk op de bovengrens van prestaties in statische omgevingen en laat robuustheid voor stochastische inzet in de echte wereld buiten beschouwing. Wij identificeren drie belangrijke uitdagingen: dynamische takenplanning, actieve exploratie onder onzekerheid en continu leren uit ervaring. Om deze kloof te overbruggen, introduceren we , een dynamische evaluatie-omgeving die een "trainee"-agent simuleert die continu een nieuwe setting verkent. In tegenstelling tot traditionele benchmarks evalueert agenten langs drie dimensies: (1) contextbewuste planning voor stromen van taken met wisselende prioriteiten; (2) prudente informatieverwerving om hallucinaties te verminderen via actieve exploratie; en (3) continue evolutie door gegeneraliseerde strategieën te destilleren uit op regels gebaseerde, dynamisch gegenereerde taken. Experimenten tonen aan toonaangevende agenten aanzienlijke tekortkomingen vertonen in dynamische omgevingen, vooral in actieve exploratie en continu leren. Ons werk creëert een raamwerk voor het beoordelen van de betrouwbaarheid van agenten, waarbij de evaluatie verschuift van statische tests naar realistische, productiegerichte scenario's. Onze code is beschikbaar op https://github.com/KnowledgeXLab/EvoEnv.

English

The rapid evolution of Multi-modal Large Language Models (MLLMs) has advanced workflow automation; however, existing research mainly targets performance upper bounds in static environments, overlooking robustness for stochastic real-world deployment. We identify three key challenges: dynamic task scheduling, active exploration under uncertainty, and continuous learning from experience. To bridge this gap, we introduce , a dynamic evaluation environment that simulates a "trainee" agent continuously exploring a novel setting. Unlike traditional benchmarks, evaluates agents along three dimensions: (1) context-aware scheduling for streaming tasks with varying priorities; (2) prudent information acquisition to reduce hallucination via active exploration; and (3) continuous evolution by distilling generalized strategies from rule-based, dynamically generated tasks. Experiments show that cutting-edge agents have significant deficiencies in dynamic environments, especially in active exploration and continual learning. Our work establishes a framework for assessing agent reliability, shifting evaluation from static tests to realistic, production-oriented scenarios. Our codes are available at https://github.com/KnowledgeXLab/EvoEnv

De eerste dag van de agent: prestaties meten op het gebied van leren, verkenning en planning in werkscenario's

The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

Samenvatting

Support