MineExplorer: Avaliando a Exploração em Mundo Aberto de Agentes MLLM no Minecraft

Resumo

Modelos de linguagem grandes multimodais (MLLMs) demonstram capacidades robustas em percepção, raciocínio e geração de ações. No entanto, sua capacidade de sustentar exploração em mundos abertos dinâmicos ainda não está clara. Benchmarks incorporados e baseados em jogos existentes frequentemente comprimem a interação em tarefas de horizonte curto ou misturam o sucesso com mecânicas de jogo específicas do domínio. Neste artigo, apresentamos o benchmark MineExplorer para avaliar as capacidades de exploração em mundo aberto de agentes MLLM no Minecraft. Primeiro, filtramos tarefas atômicas cujas soluções dependem fortemente de conhecimento específico do Minecraft para melhor refletir o raciocínio geral em mundo aberto. Em seguida, organizamos o benchmark em torno de uma formulação de capacidade no estilo ReAct e compomos tarefas atômicas em tarefas implícitas de múltiplos saltos. Para construir instâncias confiáveis, o MineExplorer utiliza um fluxo de trabalho de síntese multiagente que projeta conjuntamente gráficos de tarefas, cenários em sandbox e avaliadores de marcos baseados em regras. A avaliação humana mostra que o fluxo de trabalho de síntese multiagente produz instâncias significativamente mais confiáveis do que uma linha de base de agente único. Experimentos com agentes MLLM avançados mostram que a exploração em mundo aberto continua desafiadora, pois modelos robustos lidam com muitas tarefas de salto único, mas degradam-se acentuadamente quando pré-requisitos ocultos precisam ser coordenados ao longo de trajetórias mais longas. Análises adicionais revelam que a dificuldade da tarefa acompanha a conclusão do agente, e modelos maiores ou modos de raciocínio não se traduzem consistentemente em melhor desempenho. Código e conjunto de dados estão disponíveis em https://github.com/Jometeorie/MineExplorer.

English

Multimodal large language models (MLLMs) have shown strong capabilities in perception, reasoning, and action generation. However, their ability to sustain exploration in dynamic open worlds remains unclear. Existing embodied and game-based benchmarks often compress interaction into short-horizon tasks or entangle success with domain-specific game mechanics. In this paper, we introduce MineExplorer benchmark for evaluating open-world exploration capabilities of MLLM agents in Minecraft. We first filter atomic tasks whose solutions rely heavily on Minecraft-specific knowledge to better reflect general open-world reasoning. Then we organize the benchmark around a ReAct-style capability formulation and compose atomic tasks into implicit multi-hop tasks. To further construct reliable instances, MineExplorer uses a multi-agent synthesis workflow that jointly designs task graphs, sandbox scenes, and rule-based milestone evaluators. Human evaluation shows that the multi-agent synthesis workflow produces significantly more reliable instances than a single-agent baseline. Experiments with advanced MLLM agents show that open-world exploration remains challenging, as strong models can handle many single-hop tasks but degrade sharply when hidden prerequisites must be coordinated over longer trajectories. Further analysis finds that task difficulty tracks agent completion, and larger models or thinking modes do not consistently translate into better performance. Code and dataset are available at https://github.com/Jometeorie/MineExplorer.