Omni-WorldBench: Rumo a uma Avaliação Abrangente e Centrada na Interação para Modelos de Mundo

Resumo

Os modelos de mundo baseados em vídeo emergiram seguindo dois paradigmas dominantes: geração de vídeo e reconstrução 3D. No entanto, os benchmarks de avaliação existentes focam-se estreitamente na fidelidade visual e no alinhamento texto-vídeo para modelos generativos, ou dependem de métricas estáticas de reconstrução 3D que fundamentalmente negligenciam a dinâmica temporal. Argumentamos que o futuro da modelação de mundos reside na geração 4D, que modela conjuntamente a estrutura espacial e a evolução temporal. Neste paradigma, a capacidade central é a resposta interativa: a habilidade de refletir fielmente como as ações de interação conduzem transições de estado através do espaço e do tempo. Contudo, nenhum benchmark existente avalia sistematicamente esta dimensão crítica. Para colmatar esta lacuna, propomos o Omni-WorldBench, um benchmark abrangente especificamente concebido para avaliar as capacidades de resposta interativa de modelos de mundo em ambientes 4D. O Omni-WorldBench compreende dois componentes-chave: a Omni-WorldSuite, um conjunto sistemático de instruções abrangendo diversos níveis de interação e tipos de cena; e as Omni-Metrics, uma estrutura de avaliação baseada em agentes que quantifica as capacidades de modelação de mundo medindo o impacto causal das ações de interação tanto nos resultados finais como nas trajetórias de evolução do estado intermédio. Realizamos avaliações extensivas de 18 modelos de mundo representativos em múltiplos paradigmas. A nossa análise revela limitações críticas dos modelos de mundo atuais na resposta interativa, fornecendo perspetivas acionáveis para investigação futura. O Omni-WorldBench será disponibilizado publicamente para fomentar o progresso na modelação interativa de mundos 4D.

English

Video--based world models have emerged along two dominant paradigms: video generation and 3D reconstruction. However, existing evaluation benchmarks either focus narrowly on visual fidelity and text--video alignment for generative models, or rely on static 3D reconstruction metrics that fundamentally neglect temporal dynamics. We argue that the future of world modeling lies in 4D generation, which jointly models spatial structure and temporal evolution. In this paradigm, the core capability is interactive response: the ability to faithfully reflect how interaction actions drive state transitions across space and time. Yet no existing benchmark systematically evaluates this critical dimension. To address this gap, we propose Omni--WorldBench, a comprehensive benchmark specifically designed to evaluate the interactive response capabilities of world models in 4D settings. Omni--WorldBench comprises two key components: Omni--WorldSuite, a systematic prompt suite spanning diverse interaction levels and scene types; and Omni--Metrics, an agent-based evaluation framework that quantifies world modeling capabilities by measuring the causal impact of interaction actions on both final outcomes and intermediate state evolution trajectories. We conduct extensive evaluations of 18 representative world models across multiple paradigms. Our analysis reveals critical limitations of current world models in interactive response, providing actionable insights for future research. Omni-WorldBench will be publicly released to foster progress in interactive 4D world modeling.