MineExplorer : Évaluation de l'exploration en monde ouvert des agents MLLM dans Minecraft

Résumé

Les modèles de langage multimodaux de grande taille (MLLM) ont démontré des capacités solides en perception, raisonnement et génération d'actions. Cependant, leur aptitude à soutenir une exploration dans des mondes ouverts dynamiques reste incertaine. Les référentiels existants, qu'ils soient incarnés ou basés sur des jeux, compressent souvent l'interaction en tâches à court terme ou lient la réussite à des mécanismes de jeu spécifiques au domaine. Dans cet article, nous présentons le référentiel MineExplorer, conçu pour évaluer les capacités d'exploration en monde ouvert des agents MLLM dans Minecraft. Nous filtrons d'abord les tâches atomiques dont les solutions reposent fortement sur des connaissances spécifiques à Minecraft, afin de mieux refléter le raisonnement général en monde ouvert. Ensuite, nous organisons le référentiel autour d'une formulation de capacités de type ReAct (raisonnement et action) et composons les tâches atomiques en tâches implicites à plusieurs étapes. Pour construire des instances fiables supplémentaires, MineExplorer utilise un flux de travail de synthèse multi-agents qui conçoit conjointement des graphes de tâches, des scènes de bac à sable et des évaluateurs de jalons basés sur des règles. L'évaluation humaine montre que ce flux de travail de synthèse multi-agents produit des instances nettement plus fiables qu'une ligne de base à agent unique. Les expériences menées avec des agents MLLM avancés indiquent que l'exploration en monde ouvert reste difficile, car les modèles robustes peuvent gérer de nombreuses tâches à étape unique, mais leur performance chute fortement lorsque des prérequis cachés doivent être coordonnés sur des trajectoires plus longues. Une analyse plus poussée révèle que la difficulté des tâches suit l'achèvement par les agents, et que des modèles plus grands ou des modes de réflexion ne se traduisent pas systématiquement par de meilleures performances. Le code et l'ensemble de données sont disponibles à l'adresse https://github.com/Jometeorie/MineExplorer.

English

Multimodal large language models (MLLMs) have shown strong capabilities in perception, reasoning, and action generation. However, their ability to sustain exploration in dynamic open worlds remains unclear. Existing embodied and game-based benchmarks often compress interaction into short-horizon tasks or entangle success with domain-specific game mechanics. In this paper, we introduce MineExplorer benchmark for evaluating open-world exploration capabilities of MLLM agents in Minecraft. We first filter atomic tasks whose solutions rely heavily on Minecraft-specific knowledge to better reflect general open-world reasoning. Then we organize the benchmark around a ReAct-style capability formulation and compose atomic tasks into implicit multi-hop tasks. To further construct reliable instances, MineExplorer uses a multi-agent synthesis workflow that jointly designs task graphs, sandbox scenes, and rule-based milestone evaluators. Human evaluation shows that the multi-agent synthesis workflow produces significantly more reliable instances than a single-agent baseline. Experiments with advanced MLLM agents show that open-world exploration remains challenging, as strong models can handle many single-hop tasks but degrade sharply when hidden prerequisites must be coordinated over longer trajectories. Further analysis finds that task difficulty tracks agent completion, and larger models or thinking modes do not consistently translate into better performance. Code and dataset are available at https://github.com/Jometeorie/MineExplorer.