ChatPaper.aiChatPaper

RISE-Video: ビデオ生成AIは暗黙の世界ルールを解読できるか?

RISE-Video: Can Video Generators Decode Implicit World Rules?

February 5, 2026
著者: Mingxin Liu, Shuran Ma, Shibei Meng, Xiangyu Zhao, Zicheng Zhang, Shaofeng Zhang, Zhihang Zhong, Peixian Chen, Haoyu Cao, Xing Sun, Haodong Duan, Xue Yang
cs.AI

要旨

生成動画モデルは驚異的な視覚的忠実度を達成しているものの、暗黙的な世界のルールを内部化し推論する能力は、重要なながら未開拓のフロンティアとして残されている。この隔たりを埋めるため、本論文はRISE-Videoを提案する。これはテキスト・画像から動画への生成(TI2V)における、先駆的な推論指向ベンチマークであり、評価の焦点を表面的な美観から深層的な認知推論へと転換する。RISE-Videoは8つの厳密なカテゴリにわたる467の厳密に人手注釈されたサンプルから構成され、常識推論や空間力学から専門分野まで多様な次元にわたるモデル知能を探る構造化されたテストベッドを提供する。我々の枠組みは、推論整合性、時間的一貫性、物理的合理性、視覚的品質の4指標から成る多次元評価プロトコルを導入する。さらに拡張可能な評価を支援するため、大規模マルチモーダルモデル(LMM)を活用した人間中心の評価を模倣する自動化パイプラインを提案する。11の最先端TI2Vモデルを用いた大規模実験により、暗黙的制約下での複雑なシナリオ模擬における普遍的な欠陥が明らかになり、将来の世界シミュレーション生成モデル発展への重要な知見を提供する。
English
While generative video models have achieved remarkable visual fidelity, their capacity to internalize and reason over implicit world rules remains a critical yet under-explored frontier. To bridge this gap, we present RISE-Video, a pioneering reasoning-oriented benchmark for Text-Image-to-Video (TI2V) synthesis that shifts the evaluative focus from surface-level aesthetics to deep cognitive reasoning. RISE-Video comprises 467 meticulously human-annotated samples spanning eight rigorous categories, providing a structured testbed for probing model intelligence across diverse dimensions, ranging from commonsense and spatial dynamics to specialized subject domains. Our framework introduces a multi-dimensional evaluation protocol consisting of four metrics: Reasoning Alignment, Temporal Consistency, Physical Rationality, and Visual Quality. To further support scalable evaluation, we propose an automated pipeline leveraging Large Multimodal Models (LMMs) to emulate human-centric assessment. Extensive experiments on 11 state-of-the-art TI2V models reveal pervasive deficiencies in simulating complex scenarios under implicit constraints, offering critical insights for the advancement of future world-simulating generative models.
PDF232February 7, 2026