WBench: Un benchmark completo de múltiples turnos para la evaluación de modelos de mundo de video interactivo

Resumen

Los modelos de mundo interactivos están avanzando rápidamente, sin embargo, los benchmarks existentes cubren solo una parte de las competencias requeridas, sin ofrecer un estándar unificado para la evaluación sistemática. Para llenar este vacío, presentamos WBench, un benchmark integral de múltiples turnos para la evaluación de modelos de mundo interactivos en cinco dimensiones: calidad de video, adherencia al entorno, adherencia a la interacción, consistencia y cumplimiento físico. WBench contiene 289 casos de prueba y 1,058 turnos de interacción, donde cada caso especifica un entorno de mundo y una secuencia de interacción de múltiples turnos, cubriendo diversas escenas, estilos, sujetos y perspectivas en primera y tercera persona, junto con cuatro tipos de interacción: navegación, acción del sujeto, edición de eventos y cambio de perspectiva. Para la navegación, WBench unifica el texto, la pose de 6 grados de libertad (6-DoF) y el control de acciones discretas, permitiendo la evaluación de modelos con diferentes interfaces de entrada nativas. La evaluación utiliza 22 sub-métricas automáticas que combinan modelos de visión especializados con grandes modelos multimodales, y todas las métricas están validadas contra juicios humanos. En 20 modelos de última generación, encontramos que ningún modelo individual se desempeña de manera sólida en todas las dimensiones. Proporcionamos información diagnóstica detallada sobre las fortalezas, debilidades características y desafíos abiertos de cada modelo. El código y los datos están disponibles en https://github.com/meituan-longcat/WBench.

English

Interactive world models are advancing rapidly, yet existing benchmarks cover only part of the required competencies, leaving no unified standard for systematic evaluation. To fill this gap, we introduce WBench, a comprehensive multi-turn benchmark for interactive world model evaluation along five dimensions, namely video quality, setting adherence, interaction adherence, consistency, and physics compliance. WBench contains 289 test cases and 1,058 interaction turns, where each case specifies a world setting and a multi-turn interaction sequence, covering diverse scenes, styles, subjects, and both first- and third-person perspectives, together with four interaction types, including navigation, subject action, event editing, and perspective switching. For navigation, WBench unifies text, 6-DoF pose, and discrete-action control, enabling evaluation of models with different native input interfaces. Evaluation uses 22 automatic sub-metrics that combine specialist vision models with large multimodal models, and all metrics are validated against human judgments. Across 20 state-of-the-art models, we find that no single model performs strongly across all dimensions. We provide detailed diagnostic insights into the characteristic strengths, weaknesses, and open challenges of each model. Code and data are available at https://github.com/meituan-longcat/WBench.