RISE-Video: Kunnen videogeneratoren impliciete wereldregels decoderen?

Samenvatting

Hoewel generatieve videomodellen een opmerkelijke visuele kwaliteit hebben bereikt, blijft hun vermogen om impliciete wereldregels te internaliseren en daarover te redeneren een cruciaal maar onderbelicht onderzoeksgebied. Om deze kloof te overbruggen, presenteren we RISE-Video, een baanbrekende, op redeneren gerichte benchmark voor Text-Image-to-Video (TI2V)-synthese die de evaluatieve focus verschuift van oppervlakkige esthetiek naar diepgaand cognitief redeneervermogen. RISE-Video omvat 467 zorgvuldig door mensen geannoteerde voorbeelden, verdeeld over acht rigoureuze categorieën, en biedt zo een gestructureerde testomgeving om modelintelligentie te onderzoeken op diverse dimensies, van gezond verstand en ruimtelijke dynamiek tot gespecialiseerde vakgebieden. Ons framework introduceert een multidimensionaal evaluatieprotocol bestaande uit vier metrieken: Redeneerovereenstemming, Temporele Consistentie, Fysieke Rationaliteit en Visuele Kwaliteit. Om schaalbare evaluatie verder te ondersteunen, stellen we een geautomatiseerde pijplijn voor die gebruikmaakt van Large Multimodal Models (LMM's) om mensgerichte beoordeling na te bootsen. Uitgebreide experimenten met 11 state-of-the-art TI2V-modellen tonen wijdverbreide tekortkomingen aan in het simuleren van complexe scenario's onder impliciete beperkingen, wat cruciale inzichten biedt voor de verdere ontwikkeling van toekomstige wereld-simulerende generatieve modellen.

English

While generative video models have achieved remarkable visual fidelity, their capacity to internalize and reason over implicit world rules remains a critical yet under-explored frontier. To bridge this gap, we present RISE-Video, a pioneering reasoning-oriented benchmark for Text-Image-to-Video (TI2V) synthesis that shifts the evaluative focus from surface-level aesthetics to deep cognitive reasoning. RISE-Video comprises 467 meticulously human-annotated samples spanning eight rigorous categories, providing a structured testbed for probing model intelligence across diverse dimensions, ranging from commonsense and spatial dynamics to specialized subject domains. Our framework introduces a multi-dimensional evaluation protocol consisting of four metrics: Reasoning Alignment, Temporal Consistency, Physical Rationality, and Visual Quality. To further support scalable evaluation, we propose an automated pipeline leveraging Large Multimodal Models (LMMs) to emulate human-centric assessment. Extensive experiments on 11 state-of-the-art TI2V models reveal pervasive deficiencies in simulating complex scenarios under implicit constraints, offering critical insights for the advancement of future world-simulating generative models.

RISE-Video: Kunnen videogeneratoren impliciete wereldregels decoderen?

RISE-Video: Can Video Generators Decode Implicit World Rules?

Samenvatting

Support