WBench : Un benchmark exhaustif multi-tour pour l'évaluation de modèle de monde vidéo interactif

Résumé

Les modèles de monde interactifs progressent rapidement, mais les référentiels existants ne couvrent qu'une partie des compétences requises, sans norme unifiée pour une évaluation systématique. Pour combler cette lacune, nous présentons WBench, un référentiel complet multi-tour pour l'évaluation des modèles de monde interactifs selon cinq dimensions : qualité vidéo, respect du paramétrage, respect de l'interaction, cohérence et conformité physique. WBench contient 289 cas de test et 1058 tours d'interaction, chaque cas spécifiant un paramétrage du monde et une séquence d'interactions multi-tour, couvrant diverses scènes, styles, sujets, ainsi que des perspectives à la première et à la troisième personne, et quatre types d'interaction incluant la navigation, l'action du sujet, l'édition d'événements et le changement de perspective. Pour la navigation, WBench unifie le contrôle par texte, par pose à 6 degrés de liberté et par actions discrètes, permettant d'évaluer des modèles dotés d'interfaces d'entrée natives différentes. L'évaluation utilise 22 sous-métriques automatiques qui combinent des modèles de vision spécialisés avec de grands modèles multimodaux, et toutes les métriques sont validées par rapport aux jugements humains. Sur 20 modèles de pointe, nous constatons qu'aucun modèle unique n'obtient de bonnes performances sur toutes les dimensions. Nous fournissons des analyses diagnostiques détaillées sur les forces, les faiblesses et les défis ouverts de chaque modèle. Le code et les données sont disponibles à l'adresse https://github.com/meituan-longcat/WBench.

English

Interactive world models are advancing rapidly, yet existing benchmarks cover only part of the required competencies, leaving no unified standard for systematic evaluation. To fill this gap, we introduce WBench, a comprehensive multi-turn benchmark for interactive world model evaluation along five dimensions, namely video quality, setting adherence, interaction adherence, consistency, and physics compliance. WBench contains 289 test cases and 1,058 interaction turns, where each case specifies a world setting and a multi-turn interaction sequence, covering diverse scenes, styles, subjects, and both first- and third-person perspectives, together with four interaction types, including navigation, subject action, event editing, and perspective switching. For navigation, WBench unifies text, 6-DoF pose, and discrete-action control, enabling evaluation of models with different native input interfaces. Evaluation uses 22 automatic sub-metrics that combine specialist vision models with large multimodal models, and all metrics are validated against human judgments. Across 20 state-of-the-art models, we find that no single model performs strongly across all dimensions. We provide detailed diagnostic insights into the characteristic strengths, weaknesses, and open challenges of each model. Code and data are available at https://github.com/meituan-longcat/WBench.