WBench: Ein umfassender Multi-turn-Benchmark zur Bewertung interaktiver Video-Weltmodelle

Zusammenfassung

Interaktive Weltmodelle entwickeln sich rasant, doch bestehende Benchmarks decken nur einen Teil der erforderlichen Kompetenzen ab, sodass kein einheitlicher Standard für eine systematische Evaluierung existiert. Um diese Lücke zu schließen, stellen wir WBench vor, ein umfassender Multi-Turn-Benchmark zur Bewertung interaktiver Weltmodelle entlang fünf Dimensionen: Videoqualität, Szenario-Treue, Interaktionstreue, Konsistenz und Physikkonformität. WBench umfasst 289 Testfälle und 1.058 Interaktionsrunden, wobei jeder Fall eine Welteinstellung und eine mehrschrittige Interaktionssequenz spezifiziert, die verschiedene Szenen, Stile, Subjekte sowie sowohl die Ich- als auch die Dritte-Person-Perspektive abdeckt, zusammen mit vier Interaktionstypen: Navigation, Subjektaktion, Ereignisbearbeitung und Perspektivenwechsel. Für die Navigation vereinheitlicht WBench Text-, 6-DoF-Pose- und diskrete Aktionssteuerung, sodass Modelle mit unterschiedlichen nativen Eingabeschnittstellen evaluiert werden können. Die Bewertung verwendet 22 automatische Submetriken, die spezialisierte Computervision-Modelle mit großen multimodalen Modellen kombinieren, und alle Metriken sind gegen menschliche Bewertungen validiert. Bei der Analyse von 20 State-of-the-Art-Modellen zeigt sich, dass kein einzelnes Modell in allen Dimensionen stark abschneidet. Wir liefern detaillierte diagnostische Einblicke in die charakteristischen Stärken, Schwächen und offenen Herausforderungen jedes Modells. Code und Daten sind verfügbar unter https://github.com/meituan-longcat/WBench.

English

Interactive world models are advancing rapidly, yet existing benchmarks cover only part of the required competencies, leaving no unified standard for systematic evaluation. To fill this gap, we introduce WBench, a comprehensive multi-turn benchmark for interactive world model evaluation along five dimensions, namely video quality, setting adherence, interaction adherence, consistency, and physics compliance. WBench contains 289 test cases and 1,058 interaction turns, where each case specifies a world setting and a multi-turn interaction sequence, covering diverse scenes, styles, subjects, and both first- and third-person perspectives, together with four interaction types, including navigation, subject action, event editing, and perspective switching. For navigation, WBench unifies text, 6-DoF pose, and discrete-action control, enabling evaluation of models with different native input interfaces. Evaluation uses 22 automatic sub-metrics that combine specialist vision models with large multimodal models, and all metrics are validated against human judgments. Across 20 state-of-the-art models, we find that no single model performs strongly across all dimensions. We provide detailed diagnostic insights into the characteristic strengths, weaknesses, and open challenges of each model. Code and data are available at https://github.com/meituan-longcat/WBench.