WorldMark: 상호작용 비디오 월드 모델을 위한 통합 벤치마크 제품군
WorldMark: A Unified Benchmark Suite for Interactive Video World Models
April 23, 2026
저자: Xiaojie Xu, Zhengyuan Lin, Kang He, Yukang Feng, Xiaofeng Mao, Yuanyang Yin, Kaipeng Zhang, Yongtao Ge
cs.AI
초록
Genie, YUME, HY-World, Matrix-Game 등 인터랙티브 비디오 생성 모델의 발전 속도가 빠르지만, 모든 모델은 자체 벤치마크와 비공개 장면 및 궤적으로 평가되어 공정한 모델 간 비교가 불가능한 실정입니다. 기존 공개 벤치마크는 궤적 오차, 미적 점수, VLM 기반 판단 등 유용한 지표를 제공하지만, 이기종 입력을 사용하는 모델 간 지표 비교를 위해 필요한 표준화된 테스트 조건—동일한 장면, 동일한 행동 시퀀스, 통합 제어 인터페이스—을 제공하지는 못합니다. 본 논문은 인터랙티브 Image-to-Video 월드 모델을 위한 최초의 공통 평가 기준을 제공하는 벤치마크인 WorldMark을 소개합니다. WorldMark의 기여점은 다음과 같습니다: (1) 공유 WASD 스타일 행동 어휘를 각 모델의 고유 제어 형식으로 변환하는 통합 행동 매핑 계층을 통해 동일한 장면과 궤적에서 6가지 주요 모델을 동등한 조건으로 비교 가능하게 함; (2) 1인칭 및 3인칭 시점, 사실적 및 스타일화된 장면, 쉬움에서 어려움까지 20-60초에 이르는 3단계 난이도를 아우르는 500개의 계층적 평가 케이스 세트; (3) 시각적 품질, 제어 정렬, 세계 일관성을 평가하는 모듈식 도구키트로, 연구자들이 표준화된 입력을 재사용하면서 분야 발전에 따라 자체 지표를 추가할 수 있도록 설계됨. 향후 연구를 지원하기 위해 모든 데이터, 평가 코드 및 모델 출력을 공개할 예정입니다. 오프라인 지표를 넘어, 주요 월드 모델을 병렬 대결시키고 실시간 리더보드를 확인할 수 있는 온라인 플랫폼인 World Model Arena(warena.ai)도 함께 출시합니다.
English
Interactive video generation models such as Genie, YUME, HY-World, and Matrix-Game are advancing rapidly, yet every model is evaluated on its own benchmark with private scenes and trajectories, making fair cross-model comparison impossible. Existing public benchmarks offer useful metrics such as trajectory error, aesthetic scores, and VLM-based judgments, but none supplies the standardized test conditions -- identical scenes, identical action sequences, and a unified control interface -- needed to make those metrics comparable across models with heterogeneous inputs. We introduce WorldMark, the first benchmark that provides such a common playing field for interactive Image-to-Video world models. WorldMark contributes: (1) a unified action-mapping layer that translates a shared WASD-style action vocabulary into each model's native control format, enabling apples-to-apples comparison across six major models on identical scenes and trajectories; (2) a hierarchical test suite of 500 evaluation cases covering first- and third-person viewpoints, photorealistic and stylized scenes, and three difficulty tiers from Easy to Hard spanning 20-60s; and (3) a modular evaluation toolkit for Visual Quality, Control Alignment, and World Consistency, designed so that researchers can reuse our standardized inputs while plugging in their own metrics as the field evolves. We will release all data, evaluation code, and model outputs to facilitate future research. Beyond offline metrics, we launch World Model Arena (warena.ai), an online platform where anyone can pit leading world models against each other in side-by-side battles and watch the live leaderboard.