WorldMark: インタラクティブ動画世界モデルのための統合ベンチマークスイート
WorldMark: A Unified Benchmark Suite for Interactive Video World Models
April 23, 2026
著者: Xiaojie Xu, Zhengyuan Lin, Kang He, Yukang Feng, Xiaofeng Mao, Yuanyang Yin, Kaipeng Zhang, Yongtao Ge
cs.AI
要旨
Genie、YUME、HY-World、Matrix-Gameなどのインタラクティブ動画生成モデルは急速に進化しているが、各モデルは独自のベンチマークで評価され、非公開のシーンと動作軌跡が使用されるため、公平なモデル間比較が不可能である。既存の公開ベンチマークは軌道誤差、美的スコア、VLMベース評価などの有用な指標を提供するが、異種入力を持つモデル間でこれらの指標を比較可能にするために必要な標準化されたテスト条件――同一シーン、同一動作系列、統一制御インターフェース――を提供するものはない。我々はWorldMarkを提案する。これはインタラクティブなImage-to-Video世界モデル向けに共通の土壌を提供する初のベンチマークである。WorldMarkの貢献は以下の通り:(1)共有WASD形式動作語彙を各モデルの固有制御形式に変換する統一動作マッピング層により、6大モデルを同一シーン・軌跡で公平に比較可能(2)一人称・三人称視点、写実的・スタイライズドシーンを網羅し、EasyからHardまでの3難易度(20-60秒)に及ぶ500評価ケースの階層的テストスイート(3)視覚品質、制御整合性、世界一貫性を評価するモジュール式ツールキット(研究者は標準化入力データを流用しつつ、分野の進展に応じて独自指標を組み込める)。全てのデータ、評価コード、モデル出力を公開し将来研究を促進する。オフライン指標を超え、主要世界モデルを並列対戦させリアルタイム順位表を可視化するオンラインプラットフォームWorld Model Arena(warena.ai)も同時に立ち上げる。
English
Interactive video generation models such as Genie, YUME, HY-World, and Matrix-Game are advancing rapidly, yet every model is evaluated on its own benchmark with private scenes and trajectories, making fair cross-model comparison impossible. Existing public benchmarks offer useful metrics such as trajectory error, aesthetic scores, and VLM-based judgments, but none supplies the standardized test conditions -- identical scenes, identical action sequences, and a unified control interface -- needed to make those metrics comparable across models with heterogeneous inputs. We introduce WorldMark, the first benchmark that provides such a common playing field for interactive Image-to-Video world models. WorldMark contributes: (1) a unified action-mapping layer that translates a shared WASD-style action vocabulary into each model's native control format, enabling apples-to-apples comparison across six major models on identical scenes and trajectories; (2) a hierarchical test suite of 500 evaluation cases covering first- and third-person viewpoints, photorealistic and stylized scenes, and three difficulty tiers from Easy to Hard spanning 20-60s; and (3) a modular evaluation toolkit for Visual Quality, Control Alignment, and World Consistency, designed so that researchers can reuse our standardized inputs while plugging in their own metrics as the field evolves. We will release all data, evaluation code, and model outputs to facilitate future research. Beyond offline metrics, we launch World Model Arena (warena.ai), an online platform where anyone can pit leading world models against each other in side-by-side battles and watch the live leaderboard.