ChatPaper.aiChatPaper

WBench: インタラクティブビデオ世界モデル評価のための包括的マルチターンベンチマーク

WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

May 25, 2026
著者: Kaining Ying, Hengrui Hu, Siyu Ren, Jiamu Li, Fengjiao Chen, Ziwen Wang, Xuezhi Cao, Xunliang Cai, Henghui Ding
cs.AI

要旨

対話型ワールドモデルは急速に進歩しているが、既存のベンチマークは必要な能力の一部しかカバーしておらず、体系的な評価のための統一基準が存在しない。このギャップを埋めるため、我々はWBenchを提案する。これは、対話型ワールドモデルを5つの次元(映像品質、設定遵守、インタラクション遵守、一貫性、物理法則準拠)にわたって包括的に評価するマルチターンベンチマークである。WBenchは289のテストケースと1,058のインタラクションターンを含み、各ケースはワールド設定とマルチターンのインタラクション系列を指定する。多様なシーン、スタイル、被写体、一人称・三人称視点をカバーし、さらにナビゲーション、被写体動作、イベント編集、視点切り替えの4種類のインタラクションを含む。ナビゲーションにおいて、WBenchはテキスト、6-DoF姿勢、離散動作制御を統合し、異なるネイティブ入力インターフェースを持つモデルの評価を可能にする。評価には、専門家ビジョンモデルと大規模マルチモーダルモデルを組み合わせた22の自動サブ指標を用い、すべての指標は人間の判断に対して検証されている。20の最先端モデルを評価した結果、全次元にわたって高い性能を示す単一のモデルは存在しないことが判明した。各モデルの特徴的な強み、弱み、および未解決の課題について詳細な診断的洞察を提供する。コードとデータはhttps://github.com/meituan-longcat/WBenchで公開されている。
English
Interactive world models are advancing rapidly, yet existing benchmarks cover only part of the required competencies, leaving no unified standard for systematic evaluation. To fill this gap, we introduce WBench, a comprehensive multi-turn benchmark for interactive world model evaluation along five dimensions, namely video quality, setting adherence, interaction adherence, consistency, and physics compliance. WBench contains 289 test cases and 1,058 interaction turns, where each case specifies a world setting and a multi-turn interaction sequence, covering diverse scenes, styles, subjects, and both first- and third-person perspectives, together with four interaction types, including navigation, subject action, event editing, and perspective switching. For navigation, WBench unifies text, 6-DoF pose, and discrete-action control, enabling evaluation of models with different native input interfaces. Evaluation uses 22 automatic sub-metrics that combine specialist vision models with large multimodal models, and all metrics are validated against human judgments. Across 20 state-of-the-art models, we find that no single model performs strongly across all dimensions. We provide detailed diagnostic insights into the characteristic strengths, weaknesses, and open challenges of each model. Code and data are available at https://github.com/meituan-longcat/WBench.