MineExplorer: Evaluatie van open-wereldverkenning door MLLM-agenten in Minecraft

Samenvatting

Multimodale grote taalmodellen (MLLM's) hebben sterke capaciteiten getoond op het gebied van perceptie, redeneren en actiegeneratie. Het blijft echter onduidelijk of zij verkenning in dynamische open werelden kunnen volhouden. Bestaande belichaamde en spelgebaseerde benchmarks persen interactie vaak samen in kortetermijntaken of koppelen succes aan domeinspecifieke spelmechanismen. In dit artikel introduceren we de MineExplorer-benchmark voor het evalueren van de open-wereldverkenningscapaciteiten van MLLM-agenten in Minecraft. Eerst filteren we atomaire taken waarvan de oplossingen sterk afhankelijk zijn van Minecraft-specifieke kennis, om beter de algemene open-wereldredenering te weerspiegelen. Vervolgens organiseren we de benchmark rond een ReAct-stijl capaciteitsformulering en stellen we atomaire taken samen tot impliciete multi-hop taken. Om verdere betrouwbare instanties te construeren, gebruikt MineExplorer een multi-agent syntheseworkflow die gezamenlijk taakgrafieken, sandbox-scènes en op regels gebaseerde mijlpaalevaluatoren ontwerpt. Menselijke evaluatie toont aan dat de multi-agent syntheseworkflow significant betrouwbaardere instanties oplevert dan een single-agent baseline. Experimenten met geavanceerde MLLM-agenten laten zien dat open-wereldverkenning uitdagend blijft; sterke modellen kunnen veel single-hop taken aan, maar gaan sterk achteruit wanneer verborgen vereisten over langere trajecten moeten worden gecoördineerd. Verdere analyse toont aan dat taakmoeilijkheid de voltooiing door agenten volgt, en dat grotere modellen of denkmodi niet consistent leiden tot betere prestaties. Code en dataset zijn beschikbaar op https://github.com/Jometeorie/MineExplorer.

English

Multimodal large language models (MLLMs) have shown strong capabilities in perception, reasoning, and action generation. However, their ability to sustain exploration in dynamic open worlds remains unclear. Existing embodied and game-based benchmarks often compress interaction into short-horizon tasks or entangle success with domain-specific game mechanics. In this paper, we introduce MineExplorer benchmark for evaluating open-world exploration capabilities of MLLM agents in Minecraft. We first filter atomic tasks whose solutions rely heavily on Minecraft-specific knowledge to better reflect general open-world reasoning. Then we organize the benchmark around a ReAct-style capability formulation and compose atomic tasks into implicit multi-hop tasks. To further construct reliable instances, MineExplorer uses a multi-agent synthesis workflow that jointly designs task graphs, sandbox scenes, and rule-based milestone evaluators. Human evaluation shows that the multi-agent synthesis workflow produces significantly more reliable instances than a single-agent baseline. Experiments with advanced MLLM agents show that open-world exploration remains challenging, as strong models can handle many single-hop tasks but degrade sharply when hidden prerequisites must be coordinated over longer trajectories. Further analysis finds that task difficulty tracks agent completion, and larger models or thinking modes do not consistently translate into better performance. Code and dataset are available at https://github.com/Jometeorie/MineExplorer.