Omni-WorldBench: Hacia una Evaluación Integral Centrada en la Interacción para Modelos del Mundo

Resumen

Los modelos del mundo basados en video han surgido siguiendo dos paradigmas dominantes: la generación de video y la reconstrucción 3D. Sin embargo, los puntos de referencia de evaluación existentes se centran de forma limitada en la fidelidad visual y la alineación texto-video para modelos generativos, o dependen de métricas de reconstrucción 3D estática que fundamentalmente descuidan la dinámica temporal. Sostenemos que el futuro del modelado del mundo reside en la generación 4D, que modela conjuntamente la estructura espacial y la evolución temporal. En este paradigma, la capacidad central es la respuesta interactiva: la habilidad de reflejar fielmente cómo las acciones de interacción impulsan las transiciones de estado a través del espacio y el tiempo. Sin embargo, ningún punto de referencia existente evalúa sistemáticamente esta dimensión crítica. Para abordar esta brecha, proponemos Omni-WorldBench, un punto de referencia integral diseñado específicamente para evaluar las capacidades de respuesta interactiva de los modelos del mundo en entornos 4D. Omni-WorldBench comprende dos componentes clave: Omni-WorldSuite, un conjunto sistemático de instrucciones que abarca diversos niveles de interacción y tipos de escenas; y Omni-Metrics, un marco de evaluación basado en agentes que cuantifica las capacidades de modelado del mundo midiendo el impacto causal de las acciones de interacción tanto en los resultados finales como en las trayectorias de evolución de los estados intermedios. Realizamos evaluaciones exhaustivas de 18 modelos del mundo representativos en múltiples paradigmas. Nuestro análisis revela limitaciones críticas de los modelos del mundo actuales en la respuesta interactiva, proporcionando insights prácticos para futuras investigaciones. Omni-WorldBench se publicará públicamente para fomentar el progreso en el modelado interactivo del mundo en 4D.

English

Video--based world models have emerged along two dominant paradigms: video generation and 3D reconstruction. However, existing evaluation benchmarks either focus narrowly on visual fidelity and text--video alignment for generative models, or rely on static 3D reconstruction metrics that fundamentally neglect temporal dynamics. We argue that the future of world modeling lies in 4D generation, which jointly models spatial structure and temporal evolution. In this paradigm, the core capability is interactive response: the ability to faithfully reflect how interaction actions drive state transitions across space and time. Yet no existing benchmark systematically evaluates this critical dimension. To address this gap, we propose Omni--WorldBench, a comprehensive benchmark specifically designed to evaluate the interactive response capabilities of world models in 4D settings. Omni--WorldBench comprises two key components: Omni--WorldSuite, a systematic prompt suite spanning diverse interaction levels and scene types; and Omni--Metrics, an agent-based evaluation framework that quantifies world modeling capabilities by measuring the causal impact of interaction actions on both final outcomes and intermediate state evolution trajectories. We conduct extensive evaluations of 18 representative world models across multiple paradigms. Our analysis reveals critical limitations of current world models in interactive response, providing actionable insights for future research. Omni-WorldBench will be publicly released to foster progress in interactive 4D world modeling.

Omni-WorldBench: Hacia una Evaluación Integral Centrada en la Interacción para Modelos del Mundo

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

Resumen

Support