ChatPaper.aiChatPaper

RISE-Video: I generatori video possono decodificare le regole implicite del mondo?

RISE-Video: Can Video Generators Decode Implicit World Rules?

February 5, 2026
Autori: Mingxin Liu, Shuran Ma, Shibei Meng, Xiangyu Zhao, Zicheng Zhang, Shaofeng Zhang, Zhihang Zhong, Peixian Chen, Haoyu Cao, Xing Sun, Haodong Duan, Xue Yang
cs.AI

Abstract

Sebbene i modelli video generativi abbiano raggiunto una notevole fedeltà visiva, la loro capacità di interiorizzare e ragionare su regole implicite del mondo rimane una frontiera cruciale ma ancora poco esplorata. Per colmare questa lacuna, presentiamo RISE-Video, un benchmark pionieristicistico orientato al ragionamento per la sintesi Testo-Immagine-Video (TI2V) che sposta il focus valutativo dall'estetica di superficie al ragionamento cognitivo profondo. RISE-Video comprende 467 campioni meticolosamente annotati da esseri umani, che coprono otto categorie rigorose, fornendo un banco di prova strutturato per indagare l'intelligenza del modello attraverso dimensioni diverse, che vanno dal senso comune e dalla dinamica spaziale a domini soggettivi specializzati. Il nostro framework introduce un protocollo di valutazione multidimensionale costituito da quattro metriche: Allineamento del Ragionamento, Coerenza Temporale, Razionalità Fisica e Qualità Visiva. Per supportare ulteriormente una valutazione scalabile, proponiamo una pipeline automatizzata che sfrutta i Large Multimodal Models (LMM) per emulare una valutazione di tipo umano. Esperimenti estesi su 11 modelli TI2V all'avanguardia rivelano carenze pervasive nella simulazione di scenari complessi sotto vincoli impliciti, offrendo spunti critici per l'avanzamento dei futuri modelli generativi simulativi del mondo.
English
While generative video models have achieved remarkable visual fidelity, their capacity to internalize and reason over implicit world rules remains a critical yet under-explored frontier. To bridge this gap, we present RISE-Video, a pioneering reasoning-oriented benchmark for Text-Image-to-Video (TI2V) synthesis that shifts the evaluative focus from surface-level aesthetics to deep cognitive reasoning. RISE-Video comprises 467 meticulously human-annotated samples spanning eight rigorous categories, providing a structured testbed for probing model intelligence across diverse dimensions, ranging from commonsense and spatial dynamics to specialized subject domains. Our framework introduces a multi-dimensional evaluation protocol consisting of four metrics: Reasoning Alignment, Temporal Consistency, Physical Rationality, and Visual Quality. To further support scalable evaluation, we propose an automated pipeline leveraging Large Multimodal Models (LMMs) to emulate human-centric assessment. Extensive experiments on 11 state-of-the-art TI2V models reveal pervasive deficiencies in simulating complex scenarios under implicit constraints, offering critical insights for the advancement of future world-simulating generative models.
PDF253February 7, 2026