WBench: Комплексный многораундовый бенчмарк для оценки интерактивной видеомодели мира

Аннотация

Интерактивные модели мира стремительно развиваются, однако существующие бенчмарки охватывают лишь часть необходимых компетенций, не предоставляя единого стандарта для систематической оценки. Для заполнения этого пробела мы представляем WBench — комплексный многошаговый бенчмарк для оценки интерактивных моделей мира по пяти измерениям: качество видео, соответствие настройкам, соответствие взаимодействию, согласованность и соблюдение физических законов. WBench содержит 289 тестовых случаев и 1 058 шагов взаимодействия, каждый из которых задает настройки мира и последовательность многошагового взаимодействия, охватывая разнообразные сцены, стили, субъекты, а также перспективы от первого и третьего лица, наряду с четырьмя типами взаимодействия: навигация, действие субъекта, редактирование событий и смена перспективы. Для навигации WBench унифицирует управление с помощью текста, 6-степенной свободы позы и дискретных действий, что позволяет оценивать модели с различными нативными интерфейсами ввода. Оценка использует 22 автоматические субметрики, сочетающие специализированные модели зрения с большими мультимодальными моделями, причем все метрики валидированы относительно человеческих оценок. При тестировании 20 современных моделей мы обнаружили, что ни одна из них не показывает высоких результатов по всем измерениям. Мы предоставляем подробные диагностические сведения о характерных сильных и слабых сторонах каждой модели, а также о нерешенных задачах. Код и данные доступны по адресу https://github.com/meituan-longcat/WBench.

English

Interactive world models are advancing rapidly, yet existing benchmarks cover only part of the required competencies, leaving no unified standard for systematic evaluation. To fill this gap, we introduce WBench, a comprehensive multi-turn benchmark for interactive world model evaluation along five dimensions, namely video quality, setting adherence, interaction adherence, consistency, and physics compliance. WBench contains 289 test cases and 1,058 interaction turns, where each case specifies a world setting and a multi-turn interaction sequence, covering diverse scenes, styles, subjects, and both first- and third-person perspectives, together with four interaction types, including navigation, subject action, event editing, and perspective switching. For navigation, WBench unifies text, 6-DoF pose, and discrete-action control, enabling evaluation of models with different native input interfaces. Evaluation uses 22 automatic sub-metrics that combine specialist vision models with large multimodal models, and all metrics are validated against human judgments. Across 20 state-of-the-art models, we find that no single model performs strongly across all dimensions. We provide detailed diagnostic insights into the characteristic strengths, weaknesses, and open challenges of each model. Code and data are available at https://github.com/meituan-longcat/WBench.