ChatPaper.aiChatPaper

MIND: 월드 모델에서의 메모리 일관성과 행동 제어 성능 평가

MIND: Benchmarking Memory Consistency and Action Control in World Models

February 8, 2026
저자: Yixuan Ye, Xuanyu Lu, Yuxin Jiang, Yuchao Gu, Rui Zhao, Qiwei Liang, Jiachun Pan, Fengda Zhang, Weijia Wu, Alex Jinpeng Wang
cs.AI

초록

월드 모델은 동적 시각 환경을 이해, 기억, 예측하는 것을 목표로 하지만, 이러한 기본 능력을 평가하기 위한 통합 벤치마크는 여전히 부족합니다. 이러한 격차를 해결하기 위해 본 논문은 월드 모델의 메모리 일관성과 행동 제어 능력을 평가하는 최초의 오픈 도메인 폐쇄 루프 재방문 벤치마크인 MIND를 소개합니다. MIND는 1080p, 24 FPS의 고화질 동영상 250개로 구성되어 있으며, 여기에는 공유 행동 공간 하의 1인칭 및 3인칭 영상 클립 각 100개와 다양한 행동 공간에 걸친 25개씩의 클립이 포함되어 8가지 다양한 장면을 다룹니다. 우리는 두 가지 핵심 능력, 즉 시점 간 시간적 안정성과 맥락적 일관성을 포착하는 메모리 일관성과 행동 제어를 측정하기 위한 효율적인 평가 프레임워크를 설계했습니다. 더 나아가 다양한 캐릭터 이동 속도와 카메라 회전 각도를 포함한 다양한 행동 공간을 설계하여 공유 장면 하에서 다른 행동 공간 간의 행동 일반화 능력을 평가합니다. 향후 MIND에 대한 성능 벤치마킹을 용이하게 하기 위해 새로운 상호작용형 Video-to-World 베이스라인인 MIND-World를 도입합니다. 광범위한 실험을 통해 MIND의 완전성을 입증하고, 장기 메모리 일관성 유지와 행동 공간 간 일반화의 어려움을 포함한 현재 월드 모델의 주요 과제를 밝혔습니다. 프로젝트 페이지: https://csu-jpg.github.io/MIND.github.io/
English
World models aim to understand, remember, and predict dynamic visual environments, yet a unified benchmark for evaluating their fundamental abilities remains lacking. To address this gap, we introduce MIND, the first open-domain closed-loop revisited benchmark for evaluating Memory consIstency and action coNtrol in worlD models. MIND contains 250 high-quality videos at 1080p and 24 FPS, including 100 (first-person) + 100 (third-person) video clips under a shared action space and 25 + 25 clips across varied action spaces covering eight diverse scenes. We design an efficient evaluation framework to measure two core abilities: memory consistency and action control, capturing temporal stability and contextual coherence across viewpoints. Furthermore, we design various action spaces, including different character movement speeds and camera rotation angles, to evaluate the action generalization capability across different action spaces under shared scenes. To facilitate future performance benchmarking on MIND, we introduce MIND-World, a novel interactive Video-to-World baseline. Extensive experiments demonstrate the completeness of MIND and reveal key challenges in current world models, including the difficulty of maintaining long-term memory consistency and generalizing across action spaces. Project page: https://csu-jpg.github.io/MIND.github.io/
PDF81February 12, 2026