ChatPaper.aiChatPaper

RISE-Video: ¿Pueden los generadores de video decodificar las reglas implícitas del mundo?

RISE-Video: Can Video Generators Decode Implicit World Rules?

February 5, 2026
Autores: Mingxin Liu, Shuran Ma, Shibei Meng, Xiangyu Zhao, Zicheng Zhang, Shaofeng Zhang, Zhihang Zhong, Peixian Chen, Haoyu Cao, Xing Sun, Haodong Duan, Xue Yang
cs.AI

Resumen

Si bien los modelos generativos de video han logrado una notable fidelidad visual, su capacidad para internalizar y razonar sobre reglas implícitas del mundo sigue siendo una frontera crítica y poco explorada. Para cerrar esta brecha, presentamos RISE-Video, un pionero benchmark orientado al razonamiento para la síntesis de Texto-Imagen-a-Video (TI2V) que desplaza el enfoque evaluativo de la estética superficial al razonamiento cognitivo profundo. RISE-Video comprende 467 muestras meticulosamente anotadas por humanos que abarcan ocho categorías rigurosas, proporcionando un banco de pruebas estructurado para sondear la inteligencia del modelo a través de diversas dimensiones, que van desde el sentido común y la dinámica espacial hasta dominios temáticos especializados. Nuestro marco introduce un protocolo de evaluación multidimensional que consta de cuatro métricas: Alineación de Razonamiento, Consistencia Temporal, Racionalidad Física y Calidad Visual. Para respaldar aún más la evaluación escalable, proponemos un pipeline automatizado que aprovecha los Modelos Multimodales Grandes (LMMs) para emular la evaluación centrada en el humano. Experimentos exhaustivos con 11 modelos TI2V de vanguardia revelan deficiencias generalizadas en la simulación de escenarios complejos bajo restricciones implícitas, ofreciendo perspectivas críticas para el avance de futuros modelos generativos simuladores del mundo.
English
While generative video models have achieved remarkable visual fidelity, their capacity to internalize and reason over implicit world rules remains a critical yet under-explored frontier. To bridge this gap, we present RISE-Video, a pioneering reasoning-oriented benchmark for Text-Image-to-Video (TI2V) synthesis that shifts the evaluative focus from surface-level aesthetics to deep cognitive reasoning. RISE-Video comprises 467 meticulously human-annotated samples spanning eight rigorous categories, providing a structured testbed for probing model intelligence across diverse dimensions, ranging from commonsense and spatial dynamics to specialized subject domains. Our framework introduces a multi-dimensional evaluation protocol consisting of four metrics: Reasoning Alignment, Temporal Consistency, Physical Rationality, and Visual Quality. To further support scalable evaluation, we propose an automated pipeline leveraging Large Multimodal Models (LMMs) to emulate human-centric assessment. Extensive experiments on 11 state-of-the-art TI2V models reveal pervasive deficiencies in simulating complex scenarios under implicit constraints, offering critical insights for the advancement of future world-simulating generative models.
PDF232February 7, 2026