ChatPaper.aiChatPaper

Первый день агента: оценка обучения, исследования и планирования в рабочих сценариях

The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

January 13, 2026
Авторы: Daocheng Fu, Jianbiao Mei, Rong Wu, Xuemeng Yang, Jia Xu, Ding Wang, Pinlong Cai, Yong Liu, Licheng Wen, Botian Shi
cs.AI

Аннотация

Быстрое развитие мультимодальных больших языковых моделей (MLLM) способствовало автоматизации рабочих процессов, однако существующие исследования в основном ориентированы на достижение верхних границ производительности в статических средах, игнорируя устойчивость для стохастического развертывания в реальных условиях. Мы выделяем три ключевые проблемы: динамическое планирование задач, активное исследование в условиях неопределенности и непрерывное обучение на основе опыта. Для преодоления этого разрыва мы представляем динамическую среду оценки , которая симулирует "стажера"-агента, непрерывно исследующего новую обстановку. В отличие от традиционных бенчмарков, оценивает агентов по трем направлениям: (1) контекстно-зависимое планирование потоковых задач с различными приоритетами; (2) осмотрительное получение информации для снижения галлюцинаций через активное исследование; и (3) непрерывное развитие путем дистилляции обобщенных стратегий из основанных на правилах, динамически генерируемых задач. Эксперименты показывают, что современные агенты обладают значительными недостатками в динамических средах, особенно в активном исследовании и непрерывном обучении. Наша работа создает основу для оценки надежности агентов, смещая фокус оценки со статических тестов на реалистичные, ориентированные на производство сценарии. Наши коды доступны по адресу https://github.com/KnowledgeXLab/EvoEnv.
English
The rapid evolution of Multi-modal Large Language Models (MLLMs) has advanced workflow automation; however, existing research mainly targets performance upper bounds in static environments, overlooking robustness for stochastic real-world deployment. We identify three key challenges: dynamic task scheduling, active exploration under uncertainty, and continuous learning from experience. To bridge this gap, we introduce , a dynamic evaluation environment that simulates a "trainee" agent continuously exploring a novel setting. Unlike traditional benchmarks, evaluates agents along three dimensions: (1) context-aware scheduling for streaming tasks with varying priorities; (2) prudent information acquisition to reduce hallucination via active exploration; and (3) continuous evolution by distilling generalized strategies from rule-based, dynamically generated tasks. Experiments show that cutting-edge agents have significant deficiencies in dynamic environments, especially in active exploration and continual learning. Our work establishes a framework for assessing agent reliability, shifting evaluation from static tests to realistic, production-oriented scenarios. Our codes are available at https://github.com/KnowledgeXLab/EvoEnv
PDF92February 8, 2026