Omni-WorldBench: Op weg naar een uitgebreide, interactiegerichte evaluatie voor wereldmodellen

Samenvatting

Op videogebaseerde wereldmodellen zijn ontstaan langs twee dominante paradigma's: videogeneratie en 3D-reconstructie. Bestaande evaluatiebenchmarks richten zich echter ofwel nauw op visuele kwaliteit en tekst-video-overeenstemming voor generatieve modellen, ofwel baseren zich op statische 3D-reconstructiemetrieken die fundamenteel geen rekening houden met temporele dynamiek. Wij stellen dat de toekomst van wereldmodellering ligt in 4D-generatie, waarbij ruimtelijke structuur en temporele evolutie gezamenlijk worden gemodelleerd. In dit paradigma is interactief responsvermogen de kerncapaciteit: het vermogen om getrouw weer te geven hoe interactie-acties toestandsovergangen in ruimte en tijd aandrijven. Toch evalueert geen enkele bestaande benchmark deze kritieke dimensie systematisch. Om deze leemte op te vullen, stellen wij Omni-WorldBench voor, een uitgebreide benchmark die specifiek is ontworpen om de interactieve responscapaciteiten van wereldmodellen in 4D-omgevingen te evalueren. Omni-WorldBench omvat twee kerncomponenten: Omni-WorldSuite, een systematische promptsuite die diverse interactieniveaus en scèntypes omspant; en Omni-Metrics, een agent-gebaseerd evaluatieraamwerk dat wereldmodelleringscapaciteiten kwantificeert door de causale impact van interactie-acties op zowel eindresultaten als tussenliggende toestandsevolutietrajecten te meten. Wij voeren uitgebreide evaluaties uit van 18 representatieve wereldmodellen uit meerdere paradigma's. Onze analyse onthult kritieke beperkingen van huidige wereldmodellen in interactief responsvermogen en biedt praktische inzichten voor toekomstig onderzoek. Omni-WorldBench zal openbaar worden vrijgegeven om de vooruitgang in interactieve 4D-wereldmodellering te bevorderen.

English

Video--based world models have emerged along two dominant paradigms: video generation and 3D reconstruction. However, existing evaluation benchmarks either focus narrowly on visual fidelity and text--video alignment for generative models, or rely on static 3D reconstruction metrics that fundamentally neglect temporal dynamics. We argue that the future of world modeling lies in 4D generation, which jointly models spatial structure and temporal evolution. In this paradigm, the core capability is interactive response: the ability to faithfully reflect how interaction actions drive state transitions across space and time. Yet no existing benchmark systematically evaluates this critical dimension. To address this gap, we propose Omni--WorldBench, a comprehensive benchmark specifically designed to evaluate the interactive response capabilities of world models in 4D settings. Omni--WorldBench comprises two key components: Omni--WorldSuite, a systematic prompt suite spanning diverse interaction levels and scene types; and Omni--Metrics, an agent-based evaluation framework that quantifies world modeling capabilities by measuring the causal impact of interaction actions on both final outcomes and intermediate state evolution trajectories. We conduct extensive evaluations of 18 representative world models across multiple paradigms. Our analysis reveals critical limitations of current world models in interactive response, providing actionable insights for future research. Omni-WorldBench will be publicly released to foster progress in interactive 4D world modeling.

Omni-WorldBench: Op weg naar een uitgebreide, interactiegerichte evaluatie voor wereldmodellen

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

Samenvatting

Support