RISE-Video : Les générateurs vidéo peuvent-ils décoder les règles implicites du monde ?
RISE-Video: Can Video Generators Decode Implicit World Rules?
February 5, 2026
papers.authors: Mingxin Liu, Shuran Ma, Shibei Meng, Xiangyu Zhao, Zicheng Zhang, Shaofeng Zhang, Zhihang Zhong, Peixian Chen, Haoyu Cao, Xing Sun, Haodong Duan, Xue Yang
cs.AI
papers.abstract
Si les modèles génératifs vidéo ont atteint une fidélité visuelle remarquable, leur capacité à internaliser et à raisonner sur les règles implicites du monde reste une frontière cruciale mais encore peu explorée. Pour combler cette lacune, nous présentons RISE-Video, un benchmark pionnier axé sur le raisonnement pour la synthèse Texte-Image-vers-Vidéo (TI2V), qui déplace l'évaluation de l'esthétique de surface vers le raisonnement cognitif profond. RISE-Video comprend 467 échantillons méticuleusement annotés par des humains, couvrant huit catégories rigoureuses, offrant ainsi un banc d'essai structuré pour sonder l'intelligence des modèles sur des dimensions variées, allant du bon sens et de la dynamique spatiale à des domaines spécialisés. Notre cadre introduit un protocole d'évaluation multidimensionnel composé de quatre métriques : l'Alignement du Raisonnement, la Cohérence Temporelle, la Rationalité Physique et la Qualité Visuelle. Pour soutenir davantage l'évaluation scalable, nous proposons un pipeline automatisé exploitant les Grands Modèles Multimodaux (LMMs) pour imiter l'évaluation centrée sur l'humain. Des expériences approfondies sur 11 modèles TI2V de pointe révèlent des déficiences généralisées dans la simulation de scénarios complexes sous contraintes implicites, offrant des insights critiques pour le progrès des futurs modèles génératifs simulant le monde.
English
While generative video models have achieved remarkable visual fidelity, their capacity to internalize and reason over implicit world rules remains a critical yet under-explored frontier. To bridge this gap, we present RISE-Video, a pioneering reasoning-oriented benchmark for Text-Image-to-Video (TI2V) synthesis that shifts the evaluative focus from surface-level aesthetics to deep cognitive reasoning. RISE-Video comprises 467 meticulously human-annotated samples spanning eight rigorous categories, providing a structured testbed for probing model intelligence across diverse dimensions, ranging from commonsense and spatial dynamics to specialized subject domains. Our framework introduces a multi-dimensional evaluation protocol consisting of four metrics: Reasoning Alignment, Temporal Consistency, Physical Rationality, and Visual Quality. To further support scalable evaluation, we propose an automated pipeline leveraging Large Multimodal Models (LMMs) to emulate human-centric assessment. Extensive experiments on 11 state-of-the-art TI2V models reveal pervasive deficiencies in simulating complex scenarios under implicit constraints, offering critical insights for the advancement of future world-simulating generative models.