WorldMark: Eine einheitliche Benchmark-Suite für interaktive Videoweltmodelle

Zusammenfassung

Interaktive Video-Generierungsmodelle wie Genie, YUME, HY-World und Matrix-Game entwickeln sich rasant, doch jedes Modell wird anhand seines eigenen Benchmarks mit privaten Szenen und Trajektorien evaluiert, was einen fairen modellübergreifenden Vergleich unmöglich macht. Bestehende öffentliche Benchmarks bieten zwar nützliche Metriken wie Trajektorienfehler, ästhetische Bewertungen und VLM-basierte Beurteilungen, liefern jedoch nicht die standardisierten Testbedingungen – identische Szenen, identische Aktionssequenzen und eine einheitliche Steuerungsschnittstelle –, die erforderlich sind, um diese Metriken für Modelle mit heterogenen Eingaben vergleichbar zu machen. Wir stellen WorldMark vor, den ersten Benchmark, der eine solche gemeinsame Vergleichsbasis für interaktive Image-to-Video-World-Modelle schafft. WorldMark leistet folgende Beiträge: (1) eine einheitliche Aktionszuordnungsschicht, die einen gemeinsamen WASD-ähnlichen Aktionswortschatz in das native Steuerungsformat jedes Modells übersetzt und so einen direkten Vergleich von sechs wichtigen Modellen unter identischen Szenen und Trajektorien ermöglicht; (2) einen hierarchischen Testkatalog mit 500 Evaluierungsfällen, der Egound Third-Person-Perspektiven, fotorealistische und stilisierte Szenen sowie drei Schwierigkeitsgrade von Einfach bis Schwer über 20–60 Sekunden abdeckt; und (3) ein modulares Evaluierungstoolkit für visuelle Qualität, Steuerungspräzision und Weltkonsistenz, das so konzipiert ist, dass Forscher unsere standardisierten Eingaben wiederverwenden können, während sie im Laufe der Felderweiterung eigene Metriken einbinden. Wir werden alle Daten, Evaluierungscodes und Modellausgaben veröffentlichen, um zukünftige Forschung zu erleichtern. Neben Offline-Metriken starten wir die World Model Arena (warena.ai), eine Online-Plattform, auf der jeder führende World-Modelle in direkten Duellen gegeneinander antreten lassen und die Live-Bestenliste verfolgen kann.

English

Interactive video generation models such as Genie, YUME, HY-World, and Matrix-Game are advancing rapidly, yet every model is evaluated on its own benchmark with private scenes and trajectories, making fair cross-model comparison impossible. Existing public benchmarks offer useful metrics such as trajectory error, aesthetic scores, and VLM-based judgments, but none supplies the standardized test conditions -- identical scenes, identical action sequences, and a unified control interface -- needed to make those metrics comparable across models with heterogeneous inputs. We introduce WorldMark, the first benchmark that provides such a common playing field for interactive Image-to-Video world models. WorldMark contributes: (1) a unified action-mapping layer that translates a shared WASD-style action vocabulary into each model's native control format, enabling apples-to-apples comparison across six major models on identical scenes and trajectories; (2) a hierarchical test suite of 500 evaluation cases covering first- and third-person viewpoints, photorealistic and stylized scenes, and three difficulty tiers from Easy to Hard spanning 20-60s; and (3) a modular evaluation toolkit for Visual Quality, Control Alignment, and World Consistency, designed so that researchers can reuse our standardized inputs while plugging in their own metrics as the field evolves. We will release all data, evaluation code, and model outputs to facilitate future research. Beyond offline metrics, we launch World Model Arena (warena.ai), an online platform where anyone can pit leading world models against each other in side-by-side battles and watch the live leaderboard.

WorldMark: Eine einheitliche Benchmark-Suite für interaktive Videoweltmodelle

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Zusammenfassung

Support