Der erste Tag des Agenten: Benchmarking von Lernen, Exploration und Planung in Arbeitsszenarien
The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
January 13, 2026
papers.authors: Daocheng Fu, Jianbiao Mei, Rong Wu, Xuemeng Yang, Jia Xu, Ding Wang, Pinlong Cai, Yong Liu, Licheng Wen, Botian Shi
cs.AI
papers.abstract
Die rasche Entwicklung multimodaler großer Sprachmodelle (MLLMs) hat die Workflow-Automatisierung vorangetrieben; bestehende Forschung konzentriert sich jedoch hauptsächlich auf Leistungsobergrenzen in statischen Umgebungen und übersieht dabei die Robustheit für den stochastischen Einsatz in der realen Welt. Wir identifizieren drei zentrale Herausforderungen: dynamische Aufgabenplanung, aktive Exploration unter Unsicherheit und kontinuierliches Lernen aus Erfahrung. Um diese Lücke zu schließen, führen wir eine dynamische Evaluierungsumgebung ein, die einen "Trainee"-Agenten simuliert, der kontinuierlich eine neuartige Umgebung erkundet. Im Gegensatz zu traditionellen Benchmarks bewertet die Umgebung Agenten entlang drei Dimensionen: (1) kontextbewusste Planung für Streaming-Aufgaben mit variierenden Prioritäten; (2) umsichtige Informationsbeschaffung zur Reduzierung von Halluzinationen durch aktive Exploration; und (3) kontinuierliche Evolution durch Destillieren generalisierter Strategien aus regelbasierten, dynamisch generierten Aufgaben. Experimente zeigen, dass modernste Agenten erhebliche Defizite in dynamischen Umgebungen aufweisen, insbesondere bei aktiver Exploration und kontinuierlichem Lernen. Unsere Arbeit etabliert einen Rahmen zur Bewertung der Zuverlässigkeit von Agenten und verlagert die Evaluation von statischen Tests hin zu realistischen, produktionsorientierten Szenarien. Unsere Codes sind verfügbar unter https://github.com/KnowledgeXLab/EvoEnv.
English
The rapid evolution of Multi-modal Large Language Models (MLLMs) has advanced workflow automation; however, existing research mainly targets performance upper bounds in static environments, overlooking robustness for stochastic real-world deployment. We identify three key challenges: dynamic task scheduling, active exploration under uncertainty, and continuous learning from experience. To bridge this gap, we introduce , a dynamic evaluation environment that simulates a "trainee" agent continuously exploring a novel setting. Unlike traditional benchmarks, evaluates agents along three dimensions: (1) context-aware scheduling for streaming tasks with varying priorities; (2) prudent information acquisition to reduce hallucination via active exploration; and (3) continuous evolution by distilling generalized strategies from rule-based, dynamically generated tasks. Experiments show that cutting-edge agents have significant deficiencies in dynamic environments, especially in active exploration and continual learning. Our work establishes a framework for assessing agent reliability, shifting evaluation from static tests to realistic, production-oriented scenarios. Our codes are available at https://github.com/KnowledgeXLab/EvoEnv