MIND: Benchmarken van Geheugenconsistentie en Actiecontrole in Wereldmodellen

Samenvatting

Wereldmodellen streven ernaar dynamische visuele omgevingen te begrijpen, te onthouden en te voorspellen, maar een uniforme benchmark voor het evalueren van hun fundamentele capaciteiten ontbreekt nog steeds. Om deze leemte op te vullen, introduceren wij MIND, de eerste open-domain closed-loop herbezochte benchmark voor het evalueren van Geheugenconsistentie en actiecontrole in wereldmodellen. MIND bevat 250 hoogwaardige video's in 1080p en 24 FPS, waaronder 100 (eerstepersoons) + 100 (derdepersoons) videofragmenten binnen een gedeelde actieruimte en 25 + 25 fragmenten over verschillende actieruimten verspreid over acht uiteenlopende scènes. Wij ontwerpen een efficiënt evaluatieraamwerk om twee kernvaardigheden te meten: geheugenconsistentie en actiecontrole, waarmee temporele stabiliteit en contextuele samenhang tussen gezichtspunten worden vastgelegd. Verder ontwerpen wij diverse actieruimten, inclusief verschillende karakterbewegingssnelheden en camerarotatiehoeken, om de actiegeneraliseerbaarheid over verschillende actieruimten binnen gedeelde scènes te evalueren. Om toekomstige prestatiebenchmarking op MIND te vergemakkelijken, introduceren wij MIND-World, een nieuwe interactieve Video-naar-Wereld-basislijn. Uitgebreide experimenten tonen de volledigheid van MIND aan en onthullen cruciale uitdagingen in huidige wereldmodellen, waaronder de moeilijkheid om langetermijngeheugenconsistentie te behouden en te generaliseren over actieruimten. Projectpagina: https://csu-jpg.github.io/MIND.github.io/

English

World models aim to understand, remember, and predict dynamic visual environments, yet a unified benchmark for evaluating their fundamental abilities remains lacking. To address this gap, we introduce MIND, the first open-domain closed-loop revisited benchmark for evaluating Memory consIstency and action coNtrol in worlD models. MIND contains 250 high-quality videos at 1080p and 24 FPS, including 100 (first-person) + 100 (third-person) video clips under a shared action space and 25 + 25 clips across varied action spaces covering eight diverse scenes. We design an efficient evaluation framework to measure two core abilities: memory consistency and action control, capturing temporal stability and contextual coherence across viewpoints. Furthermore, we design various action spaces, including different character movement speeds and camera rotation angles, to evaluate the action generalization capability across different action spaces under shared scenes. To facilitate future performance benchmarking on MIND, we introduce MIND-World, a novel interactive Video-to-World baseline. Extensive experiments demonstrate the completeness of MIND and reveal key challenges in current world models, including the difficulty of maintaining long-term memory consistency and generalizing across action spaces. Project page: https://csu-jpg.github.io/MIND.github.io/

MIND: Benchmarken van Geheugenconsistentie en Actiecontrole in Wereldmodellen

MIND: Benchmarking Memory Consistency and Action Control in World Models

Samenvatting

Support