ChatPaper.aiChatPaper

RISE-Video: Способны ли генераторы видео расшифровать неявные правила мира?

RISE-Video: Can Video Generators Decode Implicit World Rules?

February 5, 2026
Авторы: Mingxin Liu, Shuran Ma, Shibei Meng, Xiangyu Zhao, Zicheng Zhang, Shaofeng Zhang, Zhihang Zhong, Peixian Chen, Haoyu Cao, Xing Sun, Haodong Duan, Xue Yang
cs.AI

Аннотация

Хотя генеративные видео-модели достигли впечатляющей визуальной достоверности, их способность усваивать и оперировать неявными правилами мира остается критически важным, но слабо изученным направлением. Для преодоления этого разрыва мы представляем RISE-Video — новаторский ориентированный на логический вывод бенчмарк для синтеза видео по текстово-изобразительному описанию (TI2V), который смещает фокус оценки с поверхностной эстетики на глубокое когнитивное рассуждение. RISE-Video включает 467 тщательно аннотированных человеком примеров, охватывающих восемь строгих категорий, и предоставляет структурированную среду для исследования интеллекта моделей в различных аспектах — от здравого смысла и пространственной динамики до специализированных предметных областей. Наша система представляет многомерный протокол оценки, состоящий из четырех метрик: соответствие логике, временная согласованность, физическая обоснованность и визуальное качество. Для поддержки масштабируемой оценки мы предлагаем автоматизированный конвейер, использующий большие мультимодальные модели (LMM) для имитации человеко-ориентированной оценки. Масштабные эксперименты с 11 передовыми TI2V-моделями выявили повсеместные недостатки в моделировании сложных сценариев при неявных ограничениях, что дает важные инсайты для развития будущих генеративных моделей, симулирующих мир.
English
While generative video models have achieved remarkable visual fidelity, their capacity to internalize and reason over implicit world rules remains a critical yet under-explored frontier. To bridge this gap, we present RISE-Video, a pioneering reasoning-oriented benchmark for Text-Image-to-Video (TI2V) synthesis that shifts the evaluative focus from surface-level aesthetics to deep cognitive reasoning. RISE-Video comprises 467 meticulously human-annotated samples spanning eight rigorous categories, providing a structured testbed for probing model intelligence across diverse dimensions, ranging from commonsense and spatial dynamics to specialized subject domains. Our framework introduces a multi-dimensional evaluation protocol consisting of four metrics: Reasoning Alignment, Temporal Consistency, Physical Rationality, and Visual Quality. To further support scalable evaluation, we propose an automated pipeline leveraging Large Multimodal Models (LMMs) to emulate human-centric assessment. Extensive experiments on 11 state-of-the-art TI2V models reveal pervasive deficiencies in simulating complex scenarios under implicit constraints, offering critical insights for the advancement of future world-simulating generative models.
PDF232February 7, 2026