WorldMark: Un Conjunto Unificado de Puntos de Referencia para Modelos Interactivos de Video Mundo

Resumen

Los modelos de generación de video interactivo como Genie, YUME, HY-World y Matrix-Game avanzan rápidamente, pero cada modelo se evalúa en su propio benchmark con escenas y trayectorias privadas, lo que imposibilita la comparación justa entre modelos. Los benchmarks públicos existentes ofrecen métricas útiles como error de trayectoria, puntuaciones estéticas y evaluaciones basadas en VLM, pero ninguno proporciona las condiciones estandarizadas de prueba —escenas idénticas, secuencias de acción idénticas y una interfaz de control unificada— necesarias para que esas métricas sean comparables entre modelos con entradas heterogéneas. Presentamos WorldMark, el primer benchmark que proporciona este campo de juego común para modelos mundiales interactivos de Imagen-a-Video. WorldMark contribuye con: (1) una capa unificada de mapeo de acciones que traduce un vocabulario de acciones compartido estilo WASD al formato de control nativo de cada modelo, permitiendo comparaciones homogéneas entre seis modelos principales en escenas y trayectorias idénticas; (2) un conjunto de pruebas jerárquico de 500 casos de evaluación que cubre perspectivas en primera y tercera persona, escenas fotorrealistas y estilizadas, y tres niveles de dificultad de Fácil a Difícil que abarcan 20-60 segundos; y (3) un kit de evaluación modular para Calidad Visual, Alineación de Control y Consistencia Mundial, diseñado para que los investigadores puedan reutilizar nuestras entradas estandarizadas mientras incorporan sus propias métricas a medida que el campo evoluciona. Liberaremos todos los datos, código de evaluación y salidas de los modelos para facilitar la investigación futura. Más allá de las métricas offline, lanzamos World Model Arena (warena.ai), una plataforma en línea donde cualquiera puede enfrentar a los principales modelos mundiales en batallas paralelas y seguir el ranking en tiempo real.

English

Interactive video generation models such as Genie, YUME, HY-World, and Matrix-Game are advancing rapidly, yet every model is evaluated on its own benchmark with private scenes and trajectories, making fair cross-model comparison impossible. Existing public benchmarks offer useful metrics such as trajectory error, aesthetic scores, and VLM-based judgments, but none supplies the standardized test conditions -- identical scenes, identical action sequences, and a unified control interface -- needed to make those metrics comparable across models with heterogeneous inputs. We introduce WorldMark, the first benchmark that provides such a common playing field for interactive Image-to-Video world models. WorldMark contributes: (1) a unified action-mapping layer that translates a shared WASD-style action vocabulary into each model's native control format, enabling apples-to-apples comparison across six major models on identical scenes and trajectories; (2) a hierarchical test suite of 500 evaluation cases covering first- and third-person viewpoints, photorealistic and stylized scenes, and three difficulty tiers from Easy to Hard spanning 20-60s; and (3) a modular evaluation toolkit for Visual Quality, Control Alignment, and World Consistency, designed so that researchers can reuse our standardized inputs while plugging in their own metrics as the field evolves. We will release all data, evaluation code, and model outputs to facilitate future research. Beyond offline metrics, we launch World Model Arena (warena.ai), an online platform where anyone can pit leading world models against each other in side-by-side battles and watch the live leaderboard.

WorldMark: Un Conjunto Unificado de Puntos de Referencia para Modelos Interactivos de Video Mundo

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Resumen

Support