WorldMark : Une Suite de Référence Unifiée pour les Modèles de Monde Vidéo Interactifs

Résumé

Les modèles de génération vidéo interactive comme Genie, YUME, HY-World et Matrix-Game progressent rapidement, mais chaque modèle est évalué sur son propre benchmark avec des scènes et trajectoires privées, rendant impossible toute comparaison équitable entre modèles. Les benchmarks publics existants offrent des métriques utiles comme l'erreur de trajectoire, les scores esthétiques et les jugements basés sur des modèles de langage visuel, mais aucun ne fournit les conditions de test standardisées - scènes identiques, séquences d'actions identiques et interface de contrôle unifiée - nécessaires pour rendre ces métriques comparables entre modèles aux entrées hétérogènes. Nous présentons WorldMark, le premier benchmark offrant un tel terrain d'évaluation commun pour les modèles de monde Image-to-Vidéo interactifs. WorldMark contribue par : (1) une couche de mappage d'actions unifiée traduisant un vocabulaire d'actions partagé de type WASD dans le format de contrôle natif de chaque modèle, permettant une comparaison homogène entre six modèles majeurs sur des scènes et trajectoires identiques ; (2) une suite de tests hiérarchisée de 500 cas d'évaluation couvrant des perspectives à la première et troisième personne, des scènes photoréalistes et stylisées, et trois niveaux de difficulté de Facile à Difficile sur 20-60 secondes ; et (3) une boîte à outils d'évaluation modulaire pour la Qualité Visuelle, l'Alignement du Contrôle et la Cohérence du Monde, conçue pour que les chercheurs puissent réutiliser nos entrées standardisées tout en intégrant leurs propres métriques au fil de l'évolution du domaine. Nous publierons toutes les données, le code d'évaluation et les sorties de modèles pour faciliter la recherche future. Au-delà des métriques hors ligne, nous lançons World Model Arena (warena.ai), une plateforme en ligne où chacun peut confronter des modèles de monde leaders dans des batailles côte à côte et suivre le classement en direct.

English

Interactive video generation models such as Genie, YUME, HY-World, and Matrix-Game are advancing rapidly, yet every model is evaluated on its own benchmark with private scenes and trajectories, making fair cross-model comparison impossible. Existing public benchmarks offer useful metrics such as trajectory error, aesthetic scores, and VLM-based judgments, but none supplies the standardized test conditions -- identical scenes, identical action sequences, and a unified control interface -- needed to make those metrics comparable across models with heterogeneous inputs. We introduce WorldMark, the first benchmark that provides such a common playing field for interactive Image-to-Video world models. WorldMark contributes: (1) a unified action-mapping layer that translates a shared WASD-style action vocabulary into each model's native control format, enabling apples-to-apples comparison across six major models on identical scenes and trajectories; (2) a hierarchical test suite of 500 evaluation cases covering first- and third-person viewpoints, photorealistic and stylized scenes, and three difficulty tiers from Easy to Hard spanning 20-60s; and (3) a modular evaluation toolkit for Visual Quality, Control Alignment, and World Consistency, designed so that researchers can reuse our standardized inputs while plugging in their own metrics as the field evolves. We will release all data, evaluation code, and model outputs to facilitate future research. Beyond offline metrics, we launch World Model Arena (warena.ai), an online platform where anyone can pit leading world models against each other in side-by-side battles and watch the live leaderboard.

WorldMark : Une Suite de Référence Unifiée pour les Modèles de Monde Vidéo Interactifs

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Résumé

Support