WorldMark: Een Uniforme Benchmark Suite voor Interactieve Videowereldmodellen

Samenvatting

Interactieve videogeneratiemodellen zoals Genie, YUME, HY-World en Matrix-Game ontwikkelen zich snel, maar elk model wordt geëvalueerd op zijn eigen benchmark met privé-scènes en trajecten, waardoor een eerlijke vergelijking tussen modellen onmogelijk is. Bestaande openbare benchmarks bieden nuttige metrieken zoals trajectfouten, esthetische scores en op VLM gebaseerde beoordelingen, maar geen enkele biedt de gestandaardiseerde testomstandigheden – identieke scènes, identieke actiesequenties en een uniforme besturingsinterface – die nodig zijn om deze metrieken vergelijkbaar te maken tussen modellen met uiteenlopende inputs. Wij introduceren WorldMark, de eerste benchmark die zo'n gemeenschappelijk speelveld biedt voor interactieve Image-to-Video wereldmodellen. WorldMark levert de volgende bijdragen: (1) een uniforme actiemappinglaag die een gedeelde WASD-stijl actievocabulaire vertaalt naar de native besturingsformaten van elk model, waardoor een gelijkwaardige vergelijking over zes grote modellen op identieke scènes en trajecten mogelijk wordt; (2) een hiërarchische testsuite van 500 evaluatiecases die eerste- en derdepersoonsperspectieven, fotorealistische en gestileerde scènes, en drie moeilijkheidsniveaus van Makkelijk tot Moeilijk over 20-60 seconden omvat; en (3) een modulair evaluatietoolkit voor Visuele Kwaliteit, Besturingsnauwkeurigheid en Wereldconsistentie, zo ontworpen dat onderzoekers onze gestandaardiseerde inputs kunnen hergebruiken terwijl ze hun eigen metrieken inpluggen naarmate het veld evolueert. Wij zullen alle data, evaluatiecode en modeloutputs vrijgeven om toekomstig onderzoek te vergemakkelijken. Naast offline metrieken lanceren we World Model Arena (warena.ai), een online platform waar iedereen toonaangevende wereldmodellen tegen elkaar kan laten strijden in side-by-side gevechten en de live leaderboard kan volgen.

English

Interactive video generation models such as Genie, YUME, HY-World, and Matrix-Game are advancing rapidly, yet every model is evaluated on its own benchmark with private scenes and trajectories, making fair cross-model comparison impossible. Existing public benchmarks offer useful metrics such as trajectory error, aesthetic scores, and VLM-based judgments, but none supplies the standardized test conditions -- identical scenes, identical action sequences, and a unified control interface -- needed to make those metrics comparable across models with heterogeneous inputs. We introduce WorldMark, the first benchmark that provides such a common playing field for interactive Image-to-Video world models. WorldMark contributes: (1) a unified action-mapping layer that translates a shared WASD-style action vocabulary into each model's native control format, enabling apples-to-apples comparison across six major models on identical scenes and trajectories; (2) a hierarchical test suite of 500 evaluation cases covering first- and third-person viewpoints, photorealistic and stylized scenes, and three difficulty tiers from Easy to Hard spanning 20-60s; and (3) a modular evaluation toolkit for Visual Quality, Control Alignment, and World Consistency, designed so that researchers can reuse our standardized inputs while plugging in their own metrics as the field evolves. We will release all data, evaluation code, and model outputs to facilitate future research. Beyond offline metrics, we launch World Model Arena (warena.ai), an online platform where anyone can pit leading world models against each other in side-by-side battles and watch the live leaderboard.

WorldMark: Een Uniforme Benchmark Suite voor Interactieve Videowereldmodellen

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Samenvatting

Support