Omni-WorldBench : Vers une évaluation complète centrée sur l'interaction pour les modèles du monde

Résumé

Les modèles du monde basés sur la vidéo ont émergé selon deux paradigmes dominants : la génération de vidéos et la reconstruction 3D. Cependant, les benchmarks d'évaluation existants se concentrent soit étroitement sur la fidélité visuelle et l'alignement texte-vidéo pour les modèles génératifs, soit s'appuient sur des métriques de reconstruction 3D statiques qui négligent fondamentalement la dynamique temporelle. Nous soutenons que l'avenir de la modélisation du monde réside dans la génération 4D, qui modélise conjointement la structure spatiale et l'évolution temporelle. Dans ce paradigme, la capacité fondamentale est la réponse interactive : la capacité à refléter fidèlement la manière dont les actions d'interaction pilotent les transitions d'état à travers l'espace et le temps. Pourtant, aucun benchmark existant n'évalue systématiquement cette dimension critique. Pour combler cette lacune, nous proposons Omni-WorldBench, un benchmark complet conçu spécifiquement pour évaluer les capacités de réponse interactive des modèles du monde dans des contextes 4D. Omni-WorldBench comprend deux éléments clés : Omni-WorldSuite, une suite systématique d'invites couvrant divers niveaux d'interaction et types de scènes ; et Omni-Metrics, un cadre d'évaluation basé sur des agents qui quantifie les capacités de modélisation du monde en mesurant l'impact causal des actions d'interaction à la fois sur les résultats finaux et sur les trajectoires d'évolution des états intermédiaires. Nous menons des évaluations approfondies de 18 modèles du monde représentatifs à travers plusieurs paradigmes. Notre analyse révèle des limitations critiques des modèles actuels en matière de réponse interactive, fournissant des pistes concrètes pour les recherches futures. Omni-WorldBench sera publié publiquement pour favoriser les progrès dans la modélisation interactive du monde en 4D.

English

Video--based world models have emerged along two dominant paradigms: video generation and 3D reconstruction. However, existing evaluation benchmarks either focus narrowly on visual fidelity and text--video alignment for generative models, or rely on static 3D reconstruction metrics that fundamentally neglect temporal dynamics. We argue that the future of world modeling lies in 4D generation, which jointly models spatial structure and temporal evolution. In this paradigm, the core capability is interactive response: the ability to faithfully reflect how interaction actions drive state transitions across space and time. Yet no existing benchmark systematically evaluates this critical dimension. To address this gap, we propose Omni--WorldBench, a comprehensive benchmark specifically designed to evaluate the interactive response capabilities of world models in 4D settings. Omni--WorldBench comprises two key components: Omni--WorldSuite, a systematic prompt suite spanning diverse interaction levels and scene types; and Omni--Metrics, an agent-based evaluation framework that quantifies world modeling capabilities by measuring the causal impact of interaction actions on both final outcomes and intermediate state evolution trajectories. We conduct extensive evaluations of 18 representative world models across multiple paradigms. Our analysis reveals critical limitations of current world models in interactive response, providing actionable insights for future research. Omni-WorldBench will be publicly released to foster progress in interactive 4D world modeling.

Omni-WorldBench : Vers une évaluation complète centrée sur l'interaction pour les modèles du monde

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

Résumé

Support