WBench: 대화형 비디오 월드 모델 평가를 위한 포괄적인 다중 턴 벤치마크
WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation
May 25, 2026
저자: Kaining Ying, Hengrui Hu, Siyu Ren, Jiamu Li, Fengjiao Chen, Ziwen Wang, Xuezhi Cao, Xunliang Cai, Henghui Ding
cs.AI
초록
인터랙티브 월드 모델은 빠르게 발전하고 있지만, 기존 벤치마크는 요구되는 역량의 일부만을 다루고 있어 체계적인 평가를 위한 통일된 기준이 부재한 상황이다. 이러한 격차를 해소하기 위해, 우리는 WBench를 소개한다. WBench는 비디오 품질, 설정 준수, 상호작용 준수, 일관성, 물리 법칙 준수의 다섯 가지 차원에 걸쳐 인터랙티브 월드 모델을 평가하기 위한 포괄적인 멀티턴 벤치마크다. WBench는 289개의 테스트 케이스와 1,058개의 상호작용 턴을 포함하며, 각 케이스는 다양한 장면, 스타일, 주제, 1인칭 및 3인칭 시점, 그리고 네 가지 상호작용 유형(이동, 주체 행동, 이벤트 편집, 시점 전환)을 아우르는 월드 설정과 멀티턴 상호작용 시퀀스를 명시한다. 이동의 경우, WBench는 텍스트, 6자유도 자세, 이산 행동 제어를 통합하여 서로 다른 기본 입력 인터페이스를 가진 모델의 평가를 가능하게 한다. 평가는 전문 시각 모델과 대규모 멀티모달 모델을 결합한 22개의 자동 하위 지표를 사용하며, 모든 지표는 인간 판단에 대해 검증되었다. 20개의 최첨단 모델에 대한 평가 결과, 모든 차원에서 강력한 성능을 보이는 단일 모델은 없음을 발견했다. 우리는 각 모델의 특징적인 강점, 약점 및 미해결 과제에 대한 상세한 진단적 통찰을 제공한다. 코드와 데이터는 https://github.com/meituan-longcat/WBench 에서 확인할 수 있다.
English
Interactive world models are advancing rapidly, yet existing benchmarks cover only part of the required competencies, leaving no unified standard for systematic evaluation. To fill this gap, we introduce WBench, a comprehensive multi-turn benchmark for interactive world model evaluation along five dimensions, namely video quality, setting adherence, interaction adherence, consistency, and physics compliance. WBench contains 289 test cases and 1,058 interaction turns, where each case specifies a world setting and a multi-turn interaction sequence, covering diverse scenes, styles, subjects, and both first- and third-person perspectives, together with four interaction types, including navigation, subject action, event editing, and perspective switching. For navigation, WBench unifies text, 6-DoF pose, and discrete-action control, enabling evaluation of models with different native input interfaces. Evaluation uses 22 automatic sub-metrics that combine specialist vision models with large multimodal models, and all metrics are validated against human judgments. Across 20 state-of-the-art models, we find that no single model performs strongly across all dimensions. We provide detailed diagnostic insights into the characteristic strengths, weaknesses, and open challenges of each model. Code and data are available at https://github.com/meituan-longcat/WBench.