ChatPaper.aiChatPaper

El Primer Día del Agente: Evaluación del Aprendizaje, la Exploración y la Planificación en Escenarios Laborales

The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

January 13, 2026
Autores: Daocheng Fu, Jianbiao Mei, Rong Wu, Xuemeng Yang, Jia Xu, Ding Wang, Pinlong Cai, Yong Liu, Licheng Wen, Botian Shi
cs.AI

Resumen

La rápida evolución de los Modelos de Lenguaje Grandes Multimodales (MLLM) ha impulsado la automatización de flujos de trabajo; sin embargo, la investigación existente se centra principalmente en los límites superiores de rendimiento en entornos estáticos, pasando por alto la robustez necesaria para un despliegue estocástico en el mundo real. Identificamos tres desafíos clave: la programación dinámica de tareas, la exploración activa bajo incertidumbre y el aprendizaje continuo a partir de la experiencia. Para cerrar esta brecha, presentamos , un entorno de evaluación dinámico que simula un agente "aprendiz" que explora continuamente un entorno novedoso. A diferencia de los puntos de referencia tradicionales, evalúa a los agentes en tres dimensiones: (1) programación consciente del contexto para tareas en flujo con prioridades variables; (2) adquisición prudente de información para reducir la alucinación mediante exploración activa; y (3) evolución continua mediante la destilación de estrategias generalizadas a partir de tareas basadas en reglas y generadas dinámicamente. Los experimentos muestran que los agentes más avanzados presentan deficiencias significativas en entornos dinámicos, especialmente en exploración activa y aprendizaje continuo. Nuestro trabajo establece un marco para evaluar la fiabilidad de los agentes, trasladando la evaluación desde pruebas estáticas hacia escenarios realistas orientados a la producción. Nuestros códigos están disponibles en https://github.com/KnowledgeXLab/EvoEnv.
English
The rapid evolution of Multi-modal Large Language Models (MLLMs) has advanced workflow automation; however, existing research mainly targets performance upper bounds in static environments, overlooking robustness for stochastic real-world deployment. We identify three key challenges: dynamic task scheduling, active exploration under uncertainty, and continuous learning from experience. To bridge this gap, we introduce , a dynamic evaluation environment that simulates a "trainee" agent continuously exploring a novel setting. Unlike traditional benchmarks, evaluates agents along three dimensions: (1) context-aware scheduling for streaming tasks with varying priorities; (2) prudent information acquisition to reduce hallucination via active exploration; and (3) continuous evolution by distilling generalized strategies from rule-based, dynamically generated tasks. Experiments show that cutting-edge agents have significant deficiencies in dynamic environments, especially in active exploration and continual learning. Our work establishes a framework for assessing agent reliability, shifting evaluation from static tests to realistic, production-oriented scenarios. Our codes are available at https://github.com/KnowledgeXLab/EvoEnv
PDF92February 8, 2026