MIND: Benchmark per la Coerenza della Memoria e il Controllo delle Azioni nei Modelli del Mondo

Abstract

I modelli mondiali mirano a comprendere, ricordare e prevedere ambienti visivi dinamici, tuttavia manca ancora un benchmark unificato per valutarne le capacità fondamentali. Per colmare questa lacuna, introduciamo MIND, il primo benchmark rivisitato a ciclo chiuso e dominio aperto per valutare la coerenza della memoria e il controllo delle azioni nei modelli mondiali. MIND contiene 250 video di alta qualità a 1080p e 24 FPS, inclusi 100 (in prima persona) + 100 (in terza persona) clip video sotto uno spazio d'azione condiviso e 25 + 25 clip attraverso spazi d'azione variati che coprono otto scene diverse. Progettiamo un framework di valutazione efficiente per misurare due capacità fondamentali: la coerenza della memoria e il controllo delle azioni, catturando la stabilità temporale e la coerenza contestuale attraverso i punti di vista. Inoltre, progettiamo vari spazi d'azione, inclusi diverse velocità di movimento del personaggio e angoli di rotazione della telecamera, per valutare la capacità di generalizzazione delle azioni attraverso diversi spazi d'azione sotto scene condivise. Per facilitare future valutazioni delle prestazioni su MIND, introduciamo MIND-World, una nuova baseline interattiva Video-to-World. Esperimenti estensivi dimostrano la completezza di MIND e rivelano le principali sfide negli attuali modelli mondiali, inclusa la difficoltà di mantenere la coerenza della memoria a lungo termine e di generalizzare attraverso spazi d'azione. Pagina del progetto: https://csu-jpg.github.io/MIND.github.io/

English

World models aim to understand, remember, and predict dynamic visual environments, yet a unified benchmark for evaluating their fundamental abilities remains lacking. To address this gap, we introduce MIND, the first open-domain closed-loop revisited benchmark for evaluating Memory consIstency and action coNtrol in worlD models. MIND contains 250 high-quality videos at 1080p and 24 FPS, including 100 (first-person) + 100 (third-person) video clips under a shared action space and 25 + 25 clips across varied action spaces covering eight diverse scenes. We design an efficient evaluation framework to measure two core abilities: memory consistency and action control, capturing temporal stability and contextual coherence across viewpoints. Furthermore, we design various action spaces, including different character movement speeds and camera rotation angles, to evaluate the action generalization capability across different action spaces under shared scenes. To facilitate future performance benchmarking on MIND, we introduce MIND-World, a novel interactive Video-to-World baseline. Extensive experiments demonstrate the completeness of MIND and reveal key challenges in current world models, including the difficulty of maintaining long-term memory consistency and generalizing across action spaces. Project page: https://csu-jpg.github.io/MIND.github.io/

MIND: Benchmark per la Coerenza della Memoria e il Controllo delle Azioni nei Modelli del Mondo

MIND: Benchmarking Memory Consistency and Action Control in World Models

Abstract

Support