ChatPaper.aiChatPaper

RISE-Video: Os Geradores de Vídeo Podem Decodificar Regras Implícitas do Mundo?

RISE-Video: Can Video Generators Decode Implicit World Rules?

February 5, 2026
Autores: Mingxin Liu, Shuran Ma, Shibei Meng, Xiangyu Zhao, Zicheng Zhang, Shaofeng Zhang, Zhihang Zhong, Peixian Chen, Haoyu Cao, Xing Sun, Haodong Duan, Xue Yang
cs.AI

Resumo

Embora os modelos generativos de vídeo tenham alcançado uma fidelidade visual notável, sua capacidade de internalizar e raciocinar sobre regras implícitas do mundo permanece uma fronteira crítica e pouco explorada. Para preencher essa lacuna, apresentamos o RISE-Video, um benchmark pioneiro orientado para o raciocínio na síntese Texto-Imagem-para-Vídeo (TI2V), que desloca o foco avaliativo da estética superficial para o raciocínio cognitivo profundo. O RISE-Video compreende 467 amostras meticulosamente anotadas por humanos, abrangendo oito categorias rigorosas, fornecendo um ambiente de testes estruturado para investigar a inteligência dos modelos em diversas dimensões, desde o senso comum e a dinâmica espacial até domínios de assunto especializados. Nosso framework introduz um protocolo de avaliação multidimensional composto por quatro métricas: Alinhamento de Raciocínio, Consistência Temporal, Racionalidade Física e Qualidade Visual. Para apoiar ainda mais a avaliação escalável, propomos um pipeline automatizado que aproveita os Grandes Modelos Multimodais (LMMs) para emular a avaliação centrada no ser humano. Experimentos extensos com 11 modelos TI2V state-of-the-art revelam deficiências generalizadas na simulação de cenários complexos sob restrições implícitas, oferecendo insights críticos para o avanço de futuros modelos generativos simuladores do mundo.
English
While generative video models have achieved remarkable visual fidelity, their capacity to internalize and reason over implicit world rules remains a critical yet under-explored frontier. To bridge this gap, we present RISE-Video, a pioneering reasoning-oriented benchmark for Text-Image-to-Video (TI2V) synthesis that shifts the evaluative focus from surface-level aesthetics to deep cognitive reasoning. RISE-Video comprises 467 meticulously human-annotated samples spanning eight rigorous categories, providing a structured testbed for probing model intelligence across diverse dimensions, ranging from commonsense and spatial dynamics to specialized subject domains. Our framework introduces a multi-dimensional evaluation protocol consisting of four metrics: Reasoning Alignment, Temporal Consistency, Physical Rationality, and Visual Quality. To further support scalable evaluation, we propose an automated pipeline leveraging Large Multimodal Models (LMMs) to emulate human-centric assessment. Extensive experiments on 11 state-of-the-art TI2V models reveal pervasive deficiencies in simulating complex scenarios under implicit constraints, offering critical insights for the advancement of future world-simulating generative models.
PDF253February 7, 2026