MineExplorer: Оценка исследования открытого мира агентами MLLM в Minecraft

Аннотация

Мультимодальные большие языковые модели (МБЯМ) демонстрируют высокие способности в восприятии, рассуждении и генерации действий. Однако их возможность поддерживать исследование в динамических открытых мирах остаётся неясной. Существующие воплощённые и игровые бенчмарки зачастую сжимают взаимодействие в задачи с коротким горизонтом или связывают успех со специфичными для игры механиками. В данной статье мы представляем бенчмарк MineExplorer для оценки способности агентов МБЯМ к исследованию открытого мира в Minecraft. Сначала мы отфильтровываем атомарные задачи, решения которых сильно зависят от специфических знаний Minecraft, чтобы лучше отражать общее рассуждение в открытых мирах. Затем мы организуем бенчмарк вокруг формулировки способностей в стиле ReAct и компонуем атомарные задачи в неявные многозвенные задачи. Для дальнейшего построения надёжных экземпляров MineExplorer использует многомодульный конвейер синтеза, который совместно проектирует графы задач, сцены песочницы и основанные на правилах оценщики этапов. Человеческая оценка показывает, что многомодульный конвейер синтеза создаёт значительно более надёжные экземпляры, чем одномодульный базовый метод. Эксперименты с продвинутыми агентами МБЯМ показывают, что исследование открытого мира остаётся сложной задачей: сильные модели справляются со многими однозвенными задачами, но их производительность резко падает, когда необходимо координировать скрытые предпосылки на более длинных траекториях. Дальнейший анализ показывает, что сложность задачи коррелирует с завершением агентом, а более крупные модели или режимы мышления не всегда приводят к улучшению производительности. Код и набор данных доступны по адресу https://github.com/Jometeorie/MineExplorer.

English

Multimodal large language models (MLLMs) have shown strong capabilities in perception, reasoning, and action generation. However, their ability to sustain exploration in dynamic open worlds remains unclear. Existing embodied and game-based benchmarks often compress interaction into short-horizon tasks or entangle success with domain-specific game mechanics. In this paper, we introduce MineExplorer benchmark for evaluating open-world exploration capabilities of MLLM agents in Minecraft. We first filter atomic tasks whose solutions rely heavily on Minecraft-specific knowledge to better reflect general open-world reasoning. Then we organize the benchmark around a ReAct-style capability formulation and compose atomic tasks into implicit multi-hop tasks. To further construct reliable instances, MineExplorer uses a multi-agent synthesis workflow that jointly designs task graphs, sandbox scenes, and rule-based milestone evaluators. Human evaluation shows that the multi-agent synthesis workflow produces significantly more reliable instances than a single-agent baseline. Experiments with advanced MLLM agents show that open-world exploration remains challenging, as strong models can handle many single-hop tasks but degrade sharply when hidden prerequisites must be coordinated over longer trajectories. Further analysis finds that task difficulty tracks agent completion, and larger models or thinking modes do not consistently translate into better performance. Code and dataset are available at https://github.com/Jometeorie/MineExplorer.