MineExplorer: Evaluación de la exploración en mundo abierto de agentes MLLM en Minecraft

Resumen

Los modelos de lenguaje multimodal grandes (MLLMs) han demostrado fuertes capacidades en percepción, razonamiento y generación de acciones. Sin embargo, su capacidad para mantener la exploración en mundos abiertos dinámicos sigue sin estar clara. Los benchmarks existentes basados en agentes encarnados y en juegos a menudo comprimen la interacción en tareas de horizonte corto o enredan el éxito con mecánicas de juego específicas del dominio. En este artículo, presentamos el benchmark MineExplorer para evaluar las capacidades de exploración en mundos abiertos de agentes MLLM en Minecraft. Primero filtramos tareas atómicas cuyas soluciones dependen en gran medida del conocimiento específico de Minecraft para reflejar mejor el razonamiento general en mundos abiertos. Luego organizamos el benchmark en torno a una formulación de capacidad al estilo ReAct y componemos tareas atómicas en tareas implícitas de múltiples pasos. Para construir instancias confiables adicionales, MineExplorer utiliza un flujo de trabajo de síntesis multiagente que diseña conjuntamente gráficos de tareas, escenarios de sandbox y evaluadores de hitos basados en reglas. La evaluación humana muestra que el flujo de trabajo de síntesis multiagente produce instancias significativamente más confiables que una línea base de agente único. Los experimentos con agentes MLLM avanzados muestran que la exploración en mundos abiertos sigue siendo un desafío, ya que los modelos fuertes pueden manejar muchas tareas de un solo paso, pero se degradan drásticamente cuando deben coordinarse requisitos previos ocultos a lo largo de trayectorias más largas. Un análisis adicional encuentra que la dificultad de la tarea sigue el rendimiento del agente, y que los modelos más grandes o los modos de pensamiento no se traducen consistentemente en un mejor rendimiento. El código y el conjunto de datos están disponibles en https://github.com/Jometeorie/MineExplorer.

English

Multimodal large language models (MLLMs) have shown strong capabilities in perception, reasoning, and action generation. However, their ability to sustain exploration in dynamic open worlds remains unclear. Existing embodied and game-based benchmarks often compress interaction into short-horizon tasks or entangle success with domain-specific game mechanics. In this paper, we introduce MineExplorer benchmark for evaluating open-world exploration capabilities of MLLM agents in Minecraft. We first filter atomic tasks whose solutions rely heavily on Minecraft-specific knowledge to better reflect general open-world reasoning. Then we organize the benchmark around a ReAct-style capability formulation and compose atomic tasks into implicit multi-hop tasks. To further construct reliable instances, MineExplorer uses a multi-agent synthesis workflow that jointly designs task graphs, sandbox scenes, and rule-based milestone evaluators. Human evaluation shows that the multi-agent synthesis workflow produces significantly more reliable instances than a single-agent baseline. Experiments with advanced MLLM agents show that open-world exploration remains challenging, as strong models can handle many single-hop tasks but degrade sharply when hidden prerequisites must be coordinated over longer trajectories. Further analysis finds that task difficulty tracks agent completion, and larger models or thinking modes do not consistently translate into better performance. Code and dataset are available at https://github.com/Jometeorie/MineExplorer.