ChatPaper.aiChatPaper

MineWorld: 마인크래프트 기반의 실시간 오픈소스 인터랙티브 월드 모델

MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

April 11, 2025
저자: Junliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian
cs.AI

초록

월드 모델링은 지능형 에이전트가 인간과 효과적으로 상호작용하고 동적 환경에서 작동할 수 있도록 하는 중요한 과제입니다. 본 연구에서는 월드 모델링을 위한 공통 테스트베드로 활용되어 온 오픈엔드 샌드박스 게임인 Minecraft를 기반으로 한 실시간 인터랙티브 월드 모델인 MineWorld를 제안합니다. MineWorld는 시각-행동 자기회귀 트랜스포머에 의해 구동되며, 이 모델은 게임 장면과 해당 행동을 입력으로 받아 행동에 따른 새로운 장면을 생성합니다. 구체적으로, 이미지 토크나이저와 행동 토크나이저를 사용하여 시각적 게임 장면과 행동을 이산 토큰 ID로 변환한 후, 두 종류의 ID를 교차하여 연결하여 모델 입력을 구성합니다. 그런 다음, 모델은 다음 토큰 예측을 통해 게임 상태의 풍부한 표현과 상태와 행동 간의 조건을 동시에 학습하도록 훈련됩니다. 추론 단계에서는 각 프레임에서 공간적으로 중복된 토큰을 동시에 예측하는 새로운 병렬 디코딩 알고리즘을 개발하여, 다양한 규모의 모델이 초당 4~7 프레임을 생성하고 게임 플레이어와 실시간 상호작용을 가능하게 합니다. 평가에서는 새로운 장면을 생성할 때 시각적 품질뿐만 아니라 월드 모델에 있어서 중요한 행동 추적 능력을 평가하기 위한 새로운 메트릭을 제안합니다. 우리의 포괄적인 평가는 MineWorld의 효율성을 보여주며, 최신 오픈소스 확산 기반 월드 모델을 크게 능가하는 성능을 입증합니다. 코드와 모델이 공개되었습니다.
English
World modeling is a crucial task for enabling intelligent agents to effectively interact with humans and operate in dynamic environments. In this work, we propose MineWorld, a real-time interactive world model on Minecraft, an open-ended sandbox game which has been utilized as a common testbed for world modeling. MineWorld is driven by a visual-action autoregressive Transformer, which takes paired game scenes and corresponding actions as input, and generates consequent new scenes following the actions. Specifically, by transforming visual game scenes and actions into discrete token ids with an image tokenizer and an action tokenizer correspondingly, we consist the model input with the concatenation of the two kinds of ids interleaved. The model is then trained with next token prediction to learn rich representations of game states as well as the conditions between states and actions simultaneously. In inference, we develop a novel parallel decoding algorithm that predicts the spatial redundant tokens in each frame at the same time, letting models in different scales generate 4 to 7 frames per second and enabling real-time interactions with game players. In evaluation, we propose new metrics to assess not only visual quality but also the action following capacity when generating new scenes, which is crucial for a world model. Our comprehensive evaluation shows the efficacy of MineWorld, outperforming SoTA open-sourced diffusion based world models significantly. The code and model have been released.

Summary

AI-Generated Summary

PDF393April 14, 2025