WorldMark: Una Suite di Benchmark Unificata per Modelli Interattivi del Mondo Video

Abstract

Modelli di generazione video interattivi come Genie, YUME, HY-World e Matrix-Game stanno progredendo rapidamente, ma ogni modello viene valutato sul proprio benchmark con scene e traiettorie private, rendendo impossibile un confronto equo tra modelli diversi. I benchmark pubblici esistenti offrono metriche utili come l'errore di traiettoria, punteggi estetici e giudizi basati su VLM, ma nessuno fornisce le condizioni di test standardizzate – scene identiche, sequenze di azioni identiche e un'interfaccia di controllo unificata – necessarie per rendere tali metriche comparabili tra modelli con input eterogenei. Presentiamo WorldMark, il primo benchmark che fornisce un terreno di confronto comune per i modelli mondo interattivi Image-to-Video. WorldMark contribuisce con: (1) un layer unificato di mappatura delle azioni che traduce un vocabolario condiviso di azioni in stile WASD nel formato di controllo nativo di ciascun modello, consentendo un confronto diretto su scene e traiettorie identiche per sei modelli principali; (2) una suite di test gerarchica di 500 casi di valutazione che copre punti di vista in prima e terza persona, scene fotorealistiche e stilizzate, e tre livelli di difficoltà da Facile a Difficile della durata di 20-60 secondi; e (3) un toolkit di valutazione modulare per Qualità Visiva, Allineamento del Controllo e Coerenza del Mondo, progettato in modo che i ricercatori possano riutilizzare i nostri input standardizzati integrando le proprie metriche con l'evolversi del campo. Rilasceremo tutti i dati, il codice di valutazione e gli output dei modelli per facilitare la ricerca futura. Oltre alle metriche offline, lanciamo World Model Arena (warena.ai), una piattaforma online dove chiunque può mettere alla prova i principali modelli mondo in battaglie affiancate e seguire la classifica in tempo reale.

English

Interactive video generation models such as Genie, YUME, HY-World, and Matrix-Game are advancing rapidly, yet every model is evaluated on its own benchmark with private scenes and trajectories, making fair cross-model comparison impossible. Existing public benchmarks offer useful metrics such as trajectory error, aesthetic scores, and VLM-based judgments, but none supplies the standardized test conditions -- identical scenes, identical action sequences, and a unified control interface -- needed to make those metrics comparable across models with heterogeneous inputs. We introduce WorldMark, the first benchmark that provides such a common playing field for interactive Image-to-Video world models. WorldMark contributes: (1) a unified action-mapping layer that translates a shared WASD-style action vocabulary into each model's native control format, enabling apples-to-apples comparison across six major models on identical scenes and trajectories; (2) a hierarchical test suite of 500 evaluation cases covering first- and third-person viewpoints, photorealistic and stylized scenes, and three difficulty tiers from Easy to Hard spanning 20-60s; and (3) a modular evaluation toolkit for Visual Quality, Control Alignment, and World Consistency, designed so that researchers can reuse our standardized inputs while plugging in their own metrics as the field evolves. We will release all data, evaluation code, and model outputs to facilitate future research. Beyond offline metrics, we launch World Model Arena (warena.ai), an online platform where anyone can pit leading world models against each other in side-by-side battles and watch the live leaderboard.

WorldMark: Una Suite di Benchmark Unificata per Modelli Interattivi del Mondo Video

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Abstract

Support