WBench: Um Benchmark Abrangente de Múltiplas Interações para Avaliação de Modelos de Mundo de Vídeo Interativo

Resumo

Os modelos de mundo interativos estão avançando rapidamente, no entanto, os benchmarks existentes cobrem apenas parte das competências necessárias, não havendo um padrão unificado para avaliação sistemática. Para preencher essa lacuna, apresentamos o WBench, um benchmark abrangente e multiturno para avaliação de modelos de mundo interativos ao longo de cinco dimensões: qualidade de vídeo, aderência ao cenário, aderência à interação, consistência e conformidade com a física. O WBench contém 289 casos de teste e 1.058 turnos de interação, onde cada caso especifica um cenário mundial e uma sequência de interação multiturno, abrangendo diversas cenas, estilos, sujeitos e perspectivas tanto em primeira quanto em terceira pessoa, juntamente com quatro tipos de interação: navegação, ação do sujeito, edição de eventos e alternância de perspectiva. Para navegação, o WBench unifica texto, pose de 6 GDL e controle de ação discreta, permitindo a avaliação de modelos com diferentes interfaces de entrada nativas. A avaliação utiliza 22 submétricas automáticas que combinam modelos de visão especialistas com modelos multimodais grandes, e todas as métricas são validadas por julgamentos humanos. Em 20 modelos de última geração, constatamos que nenhum modelo individual apresenta bom desempenho em todas as dimensões. Fornecemos insights diagnósticos detalhados sobre os pontos fortes, fracos e desafios em aberto característicos de cada modelo. O código e os dados estão disponíveis em https://github.com/meituan-longcat/WBench.

English

Interactive world models are advancing rapidly, yet existing benchmarks cover only part of the required competencies, leaving no unified standard for systematic evaluation. To fill this gap, we introduce WBench, a comprehensive multi-turn benchmark for interactive world model evaluation along five dimensions, namely video quality, setting adherence, interaction adherence, consistency, and physics compliance. WBench contains 289 test cases and 1,058 interaction turns, where each case specifies a world setting and a multi-turn interaction sequence, covering diverse scenes, styles, subjects, and both first- and third-person perspectives, together with four interaction types, including navigation, subject action, event editing, and perspective switching. For navigation, WBench unifies text, 6-DoF pose, and discrete-action control, enabling evaluation of models with different native input interfaces. Evaluation uses 22 automatic sub-metrics that combine specialist vision models with large multimodal models, and all metrics are validated against human judgments. Across 20 state-of-the-art models, we find that no single model performs strongly across all dimensions. We provide detailed diagnostic insights into the characteristic strengths, weaknesses, and open challenges of each model. Code and data are available at https://github.com/meituan-longcat/WBench.