Omni-WorldBench: К всесторонней интерактивно-ориентированной оценке мировых моделей

Аннотация

Видео-ориентированные модели мира развиваются в рамках двух основных парадигм: генерации видео и 3D-реконструкции. Однако существующие бенчмарки для оценки либо узко фокусируются на визуальном качестве и соответствии тексту и видео для генеративных моделей, либо опираются на метрики статической 3D-реконструкции, которые принципиально игнорируют временную динамику. Мы утверждаем, что будущее моделирования мира лежит в 4D-генерации, которая совместно моделирует пространственную структуру и временную эволюцию. В этой парадигме ключевой способностью является интерактивный отклик: возможность достоверно отражать то, как действия взаимодействия управляют переходами состояний в пространстве и времени. Однако ни один существующий бенчмарк систематически не оценивает это критически важное измерение. Чтобы заполнить этот пробел, мы предлагаем Omni-WorldBench — комплексный бенчмарк, специально разработанный для оценки интерактивных способностей отклика моделей мира в 4D-сценариях. Omni-WorldBench состоит из двух ключевых компонентов: Omni-WorldSuite, систематического набора промптов, охватывающего различные уровни взаимодействия и типы сцен; и Omni-Metrics, агент-ориентированной системы оценки, которая количественно определяет возможности моделирования мира путем измерения причинно-следственного воздействия действий взаимодействия как на конечные результаты, так и на траектории эволюции промежуточных состояний. Мы проводим масштабную оценку 18 репрезентативных моделей мира из различных парадигм. Наш анализ выявляет критические ограничения текущих моделей мира в области интерактивного отклика, предоставляя практические insights для будущих исследований. Omni-WorldBench будет публично выпущен для стимулирования прогресса в области интерактивного 4D-моделирования мира.

English

Video--based world models have emerged along two dominant paradigms: video generation and 3D reconstruction. However, existing evaluation benchmarks either focus narrowly on visual fidelity and text--video alignment for generative models, or rely on static 3D reconstruction metrics that fundamentally neglect temporal dynamics. We argue that the future of world modeling lies in 4D generation, which jointly models spatial structure and temporal evolution. In this paradigm, the core capability is interactive response: the ability to faithfully reflect how interaction actions drive state transitions across space and time. Yet no existing benchmark systematically evaluates this critical dimension. To address this gap, we propose Omni--WorldBench, a comprehensive benchmark specifically designed to evaluate the interactive response capabilities of world models in 4D settings. Omni--WorldBench comprises two key components: Omni--WorldSuite, a systematic prompt suite spanning diverse interaction levels and scene types; and Omni--Metrics, an agent-based evaluation framework that quantifies world modeling capabilities by measuring the causal impact of interaction actions on both final outcomes and intermediate state evolution trajectories. We conduct extensive evaluations of 18 representative world models across multiple paradigms. Our analysis reveals critical limitations of current world models in interactive response, providing actionable insights for future research. Omni-WorldBench will be publicly released to foster progress in interactive 4D world modeling.

Omni-WorldBench: К всесторонней интерактивно-ориентированной оценке мировых моделей

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

Аннотация

Support