RISE-Video: Können Videogeneratoren implizite Weltregeln entschlüsseln?
RISE-Video: Can Video Generators Decode Implicit World Rules?
February 5, 2026
papers.authors: Mingxin Liu, Shuran Ma, Shibei Meng, Xiangyu Zhao, Zicheng Zhang, Shaofeng Zhang, Zhihang Zhong, Peixian Chen, Haoyu Cao, Xing Sun, Haodong Duan, Xue Yang
cs.AI
papers.abstract
Während generative Videomodelle eine bemerkenswerte visuelle Qualität erreicht haben, bleibt ihre Fähigkeit, implizite Weltregeln zu internalisieren und darüber zu schlussfolgern, eine kritische, aber noch wenig erforschte Grenze. Um diese Lücke zu schließen, stellen wir RISE-Video vor, einen bahnbrechenden, reasoning-orientierten Benchmark für die Text-Bild-zu-Video (TI2V)-Synthese, der den Bewertungsschwerpunkt von oberflächlicher Ästhetik auf tiefgreifende kognitive Schlussfolgerungen verlagert. RISE-Video umfasst 467 sorgfältig menschlich annotierte Beispiele, die acht anspruchsvolle Kategorien abdecken und eine strukturierte Testumgebung bieten, um die Modellintelligenz über diverse Dimensionen hinweg zu untersuchen – von Common Sense und räumlicher Dynamik bis hin zu speziellen Fachdomänen. Unser Framework führt ein mehrdimensionales Bewertungsprotokoll ein, das aus vier Metriken besteht: Reasoning-Alignment, zeitliche Konsistenz, physikalische Rationalität und visuelle Qualität. Um eine skalierbare Evaluation weiter zu unterstützen, schlagen wir eine automatisierte Pipeline vor, die Large Multimodal Models (LMMs) nutzt, um eine menschenzentrierte Bewertung zu emulieren. Umfangreiche Experimente mit 11 state-of-the-art TI2V-Modellen zeigen weitverbreitete Defizite bei der Simulation komplexer Szenarien unter impliziten Randbedingungen auf und liefern kritische Erkenntnisse für die Weiterentwicklung zukünftiger weltensimulierender generativer Modelle.
English
While generative video models have achieved remarkable visual fidelity, their capacity to internalize and reason over implicit world rules remains a critical yet under-explored frontier. To bridge this gap, we present RISE-Video, a pioneering reasoning-oriented benchmark for Text-Image-to-Video (TI2V) synthesis that shifts the evaluative focus from surface-level aesthetics to deep cognitive reasoning. RISE-Video comprises 467 meticulously human-annotated samples spanning eight rigorous categories, providing a structured testbed for probing model intelligence across diverse dimensions, ranging from commonsense and spatial dynamics to specialized subject domains. Our framework introduces a multi-dimensional evaluation protocol consisting of four metrics: Reasoning Alignment, Temporal Consistency, Physical Rationality, and Visual Quality. To further support scalable evaluation, we propose an automated pipeline leveraging Large Multimodal Models (LMMs) to emulate human-centric assessment. Extensive experiments on 11 state-of-the-art TI2V models reveal pervasive deficiencies in simulating complex scenarios under implicit constraints, offering critical insights for the advancement of future world-simulating generative models.