ChatPaper.aiChatPaper

RISE-Video: 비디오 생성기는 암묵적인 세계 규칙을 해독할 수 있는가?

RISE-Video: Can Video Generators Decode Implicit World Rules?

February 5, 2026
저자: Mingxin Liu, Shuran Ma, Shibei Meng, Xiangyu Zhao, Zicheng Zhang, Shaofeng Zhang, Zhihang Zhong, Peixian Chen, Haoyu Cao, Xing Sun, Haodong Duan, Xue Yang
cs.AI

초록

생성형 비디오 모델이 놀라운 시각적 정확도를 달성했지만, 암묵적 세계 규칙을 내재화하고 추론하는 능력은 여전히 중요하지만 충분히 탐구되지 않은 분야로 남아 있습니다. 이러한 격차를 해소하기 위해 본 연구에서는 평가 초점을 표면적 미학에서 심층 인지 추론으로 전환하는 텍스트-이미지-비디오(TI2V) 합성을 위한 선도적인 추론 지향 벤치마크인 RISE-Video를 제안합니다. RISE-Video는 8개의 엄격한 범주에 걸친 467개의 정교하게 인간 주석이 달린 샘플로 구성되어 있으며, 상식 및 공간 역학부터 전문 주제 영역에 이르기까지 다양한 차원에서 모델 지능을 탐구하기 위한 구조화된 테스트베드를 제공합니다. 우리의 프레임워크는 추론 정합성, 시간적 일관성, 물리적 합리성, 시각적 품질의 네 가지 측정 지표로 구성된 다차원 평가 프로토콜을 도입합니다. 확장 가능한 평가를 추가로 지원하기 위해 대규모 멀티모달 모델(LMM)을 활용하여 인간 중심 평가를 모방하는 자동화 파이프라인을 제안합니다. 11개의 최첨단 TI2V 모델에 대한 광범위한 실험을 통해 암묵적 제약 조건 하에서 복잡한 시나리오를 시뮬레이션하는 데 있어 보편적으로 존재하는 결함을 드러내며, 미래의 세계 시뮬레이션 생성 모델 발전을 위한 중요한 통찰을 제공합니다.
English
While generative video models have achieved remarkable visual fidelity, their capacity to internalize and reason over implicit world rules remains a critical yet under-explored frontier. To bridge this gap, we present RISE-Video, a pioneering reasoning-oriented benchmark for Text-Image-to-Video (TI2V) synthesis that shifts the evaluative focus from surface-level aesthetics to deep cognitive reasoning. RISE-Video comprises 467 meticulously human-annotated samples spanning eight rigorous categories, providing a structured testbed for probing model intelligence across diverse dimensions, ranging from commonsense and spatial dynamics to specialized subject domains. Our framework introduces a multi-dimensional evaluation protocol consisting of four metrics: Reasoning Alignment, Temporal Consistency, Physical Rationality, and Visual Quality. To further support scalable evaluation, we propose an automated pipeline leveraging Large Multimodal Models (LMMs) to emulate human-centric assessment. Extensive experiments on 11 state-of-the-art TI2V models reveal pervasive deficiencies in simulating complex scenarios under implicit constraints, offering critical insights for the advancement of future world-simulating generative models.
PDF232February 7, 2026