MineExplorer: Evaluierung der Open-World-Erkundung von MLLM-Agenten in Minecraft

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben beeindruckende Fähigkeiten in den Bereichen Wahrnehmung, logisches Denken und Aktionsgenerierung gezeigt. Allerdings bleibt unklar, ob sie in dynamischen offenen Welten eigenständig erkunden können. Bestehende verkörperte und spielbasierte Benchmarks komprimieren Interaktionen oft in Kurzzeithorizont-Aufgaben oder verknüpfen Erfolg mit domänenspezifischen Spielmechaniken. In dieser Arbeit stellen wir den MineExplorer-Benchmark zur Bewertung der Erkundungsfähigkeiten von MLLM-Agenten in offenen Welten in Minecraft vor. Zunächst filtern wir atomare Aufgaben, deren Lösung stark auf Minecraft-spezifischem Wissen beruht, um allgemeine Schlussfolgerungen in offenen Welten besser widerzuspiegeln. Anschließend organisieren wir den Benchmark um eine ReAct-artige Fähigkeitsformulierung und setzen atomare Aufgaben zu impliziten Multi-Hop-Aufgaben zusammen. Um zuverlässige Instanzen zu konstruieren, verwendet MineExplorer einen mehrstufigen Synthese-Workflow, der gemeinsam Aufgaben-Graphen, Sandkastenszenen und regelbasierte Meilensteinbewerter entwirft. Eine menschliche Evaluierung zeigt, dass der mehrstufige Synthese-Workflow signifikant zuverlässigere Instanzen erzeugt als eine Einzelagentenbasislinie. Experimente mit fortschrittlichen MLLM-Agenten zeigen, dass die Erkundung offener Welten weiterhin eine Herausforderung darstellt: Starke Modelle bewältigen viele Einzel-Hop-Aufgaben, verschlechtern sich jedoch drastisch, wenn versteckte Voraussetzungen über längere Trajektorien koordiniert werden müssen. Weitere Analysen zeigen, dass die Aufgabenschwierigkeit mit der Agentenerfüllung korreliert und dass größere Modelle oder Denkmodi nicht durchgängig zu besseren Ergebnissen führen. Code und Datensatz sind verfügbar unter https://github.com/Jometeorie/MineExplorer.

English

Multimodal large language models (MLLMs) have shown strong capabilities in perception, reasoning, and action generation. However, their ability to sustain exploration in dynamic open worlds remains unclear. Existing embodied and game-based benchmarks often compress interaction into short-horizon tasks or entangle success with domain-specific game mechanics. In this paper, we introduce MineExplorer benchmark for evaluating open-world exploration capabilities of MLLM agents in Minecraft. We first filter atomic tasks whose solutions rely heavily on Minecraft-specific knowledge to better reflect general open-world reasoning. Then we organize the benchmark around a ReAct-style capability formulation and compose atomic tasks into implicit multi-hop tasks. To further construct reliable instances, MineExplorer uses a multi-agent synthesis workflow that jointly designs task graphs, sandbox scenes, and rule-based milestone evaluators. Human evaluation shows that the multi-agent synthesis workflow produces significantly more reliable instances than a single-agent baseline. Experiments with advanced MLLM agents show that open-world exploration remains challenging, as strong models can handle many single-hop tasks but degrade sharply when hidden prerequisites must be coordinated over longer trajectories. Further analysis finds that task difficulty tracks agent completion, and larger models or thinking modes do not consistently translate into better performance. Code and dataset are available at https://github.com/Jometeorie/MineExplorer.