WBench: Een uitgebreide multi-turn benchmark voor de evaluatie van interactieve video-wereldmodellen

Samenvatting

Interactieve wereldmodellen ontwikkelen zich snel, maar bestaande benchmarks dekken slechts een deel van de vereiste competenties, waardoor er geen uniforme standaard is voor systematische evaluatie. Om deze leemte op te vullen introduceren we WBench, een uitgebreide multi-turn benchmark voor evaluatie van interactieve wereldmodellen op vijf dimensies: videokwaliteit, setting-naleving, interactie-naleving, consistentie en natuurkundige conformiteit. WBench bevat 289 testgevallen en 1.058 interactierondes, waarbij elk geval een wereldinstelling en een multi-turn interactiesequentie specificeert, met een breed scala aan scènes, stijlen, onderwerpen en zowel eerste- als derdepersoonsperspectieven, samen met vier interactietypen: navigatie, subjectactie, gebeurtenisbewerking en perspectiefwisseling. Voor navigatie verenigt WBench tekst, 6-DoF-houding en discrete-actieregeling, waardoor evaluatie mogelijk is van modellen met verschillende native invoerinterfaces. Evaluatie gebruikt 22 automatische submetrieken die specialistische vision-modellen combineren met grote multimodale modellen, en alle metrieken zijn gevalideerd op basis van menselijke oordelen. Bij 20 state-of-the-art modellen zien we dat geen enkel model sterk presteert op alle dimensies. We geven gedetailleerde diagnostische inzichten in de karakteristieke sterke punten, zwakke punten en openstaande uitdagingen van elk model. Code en data zijn beschikbaar op https://github.com/meituan-longcat/WBench.

English

Interactive world models are advancing rapidly, yet existing benchmarks cover only part of the required competencies, leaving no unified standard for systematic evaluation. To fill this gap, we introduce WBench, a comprehensive multi-turn benchmark for interactive world model evaluation along five dimensions, namely video quality, setting adherence, interaction adherence, consistency, and physics compliance. WBench contains 289 test cases and 1,058 interaction turns, where each case specifies a world setting and a multi-turn interaction sequence, covering diverse scenes, styles, subjects, and both first- and third-person perspectives, together with four interaction types, including navigation, subject action, event editing, and perspective switching. For navigation, WBench unifies text, 6-DoF pose, and discrete-action control, enabling evaluation of models with different native input interfaces. Evaluation uses 22 automatic sub-metrics that combine specialist vision models with large multimodal models, and all metrics are validated against human judgments. Across 20 state-of-the-art models, we find that no single model performs strongly across all dimensions. We provide detailed diagnostic insights into the characteristic strengths, weaknesses, and open challenges of each model. Code and data are available at https://github.com/meituan-longcat/WBench.