MIND: Avaliação da Consistência da Memória e do Controle de Ações em Modelos do Mundo

Resumo

Os modelos de mundo visam compreender, lembrar e prever ambientes visuais dinâmicos, no entanto, ainda falta um benchmark unificado para avaliar suas habilidades fundamentais. Para preencher essa lacuna, apresentamos o MIND, o primeiro benchmark de domínio aberto, de ciclo fechado e revisitado para avaliar a consistência de memória e o controle de ação em modelos de mundo. O MIND contém 250 vídeos de alta qualidade em 1080p e 24 FPS, incluindo 100 clipes em primeira pessoa + 100 clipes em terceira pessoa sob um espaço de ação compartilhado e 25 + 25 clipes em diversos espaços de ação, abrangendo oito cenários distintos. Projetamos um framework de avaliação eficiente para medir duas habilidades centrais: consistência de memória e controle de ação, capturando estabilidade temporal e coerência contextual entre diferentes pontos de vista. Além disso, projetamos vários espaços de ação, incluindo diferentes velocidades de movimento do personagem e ângulos de rotação da câmera, para avaliar a capacidade de generalização de ação entre diferentes espaços de ação sob cenários compartilhados. Para facilitar futuras comparações de desempenho no MIND, introduzimos o MIND-World, uma nova linha de base interativa de Vídeo-para-Mundo. Experimentos extensivos demonstram a completude do MIND e revelam desafios-chave nos modelos de mundo atuais, incluindo a dificuldade de manter a consistência de memória de longo prazo e generalizar entre espaços de ação. Página do projeto: https://csu-jpg.github.io/MIND.github.io/

English

World models aim to understand, remember, and predict dynamic visual environments, yet a unified benchmark for evaluating their fundamental abilities remains lacking. To address this gap, we introduce MIND, the first open-domain closed-loop revisited benchmark for evaluating Memory consIstency and action coNtrol in worlD models. MIND contains 250 high-quality videos at 1080p and 24 FPS, including 100 (first-person) + 100 (third-person) video clips under a shared action space and 25 + 25 clips across varied action spaces covering eight diverse scenes. We design an efficient evaluation framework to measure two core abilities: memory consistency and action control, capturing temporal stability and contextual coherence across viewpoints. Furthermore, we design various action spaces, including different character movement speeds and camera rotation angles, to evaluate the action generalization capability across different action spaces under shared scenes. To facilitate future performance benchmarking on MIND, we introduce MIND-World, a novel interactive Video-to-World baseline. Extensive experiments demonstrate the completeness of MIND and reveal key challenges in current world models, including the difficulty of maintaining long-term memory consistency and generalizing across action spaces. Project page: https://csu-jpg.github.io/MIND.github.io/

MIND: Avaliação da Consistência da Memória e do Controle de Ações em Modelos do Mundo

MIND: Benchmarking Memory Consistency and Action Control in World Models

Resumo

Support