ChatPaper.aiChatPaper

Évaluation de la compréhension et du raisonnement scientifiques pour la génération vidéo avec VideoScience-Bench

Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench

December 2, 2025
papers.authors: Lanxiang Hu, Abhilash Shankarampeta, Yixin Huang, Zilin Dai, Haoyang Yu, Yujie Zhao, Haoqiang Kang, Daniel Zhao, Tajana Rosing, Hao Zhang
cs.AI

papers.abstract

La prochaine frontière pour la génération vidéo réside dans le développement de modèles capables de raisonnement en zero-shot, où la compréhension des lois scientifiques du monde réel est cruciale pour une modélisation précise des résultats physiques dans des conditions variées. Cependant, les benchmarks vidéo existants sont basés sur le bon sens physique et offrent une vision limitée des capacités de raisonnement scientifique des modèles vidéo. Nous présentons VideoScience-Bench, un benchmark conçu pour évaluer la compréhension scientifique de niveau universitaire dans les modèles vidéo. Chaque prompt encode un scénario scientifique composite qui nécessite de comprendre et de raisonner sur plusieurs concepts scientifiques pour générer le phénomène correct. Le benchmark comprend 200 prompts soigneusement sélectionnés couvrant 14 sujets et 103 concepts en physique et chimie. Nous menons des évaluations annotées par des experts sur sept modèles vidéo de pointe dans des configurations T2V et I2V selon cinq dimensions : la cohérence avec le prompt, la congruence du phénomène, le dynamisme correct, l'immuabilité et la continuité spatio-temporelle. En utilisant un VLM-comme-juge pour évaluer les générations vidéo, nous observons une forte corrélation avec les évaluations humaines. À notre connaissance, VideoScience-Bench est le premier benchmark à évaluer les modèles vidéo non seulement en tant que générateurs, mais aussi en tant que raisonneurs, exigeant que leurs générations démontrent une compréhension scientifique conforme aux phénomènes physiques et chimiques attendus. Nos données et notre code d'évaluation sont disponibles à l'adresse : https://github.com/hao-ai-lab/VideoScience.
English
The next frontier for video generation lies in developing models capable of zero-shot reasoning, where understanding real-world scientific laws is crucial for accurate physical outcome modeling under diverse conditions. However, existing video benchmarks are physical commonsense-based, offering limited insight into video models' scientific reasoning capability. We introduce VideoScience-Bench, a benchmark designed to evaluate undergraduate-level scientific understanding in video models. Each prompt encodes a composite scientific scenario that requires understanding and reasoning across multiple scientific concepts to generate the correct phenomenon. The benchmark comprises 200 carefully curated prompts spanning 14 topics and 103 concepts in physics and chemistry. We conduct expert-annotated evaluations across seven state-of-the-art video models in T2V and I2V settings along five dimensions: Prompt Consistency, Phenomenon Congruency, Correct Dynamism, Immutability, and Spatio-Temporal Continuity. Using a VLM-as-a-Judge to assess video generations, we observe strong correlation with human assessments. To the best of our knowledge, VideoScience-Bench is the first benchmark to evaluate video models not only as generators but also as reasoners, requiring their generations to demonstrate scientific understanding consistent with expected physical and chemical phenomena. Our data and evaluation code are available at: https://github.com/hao-ai-lab/VideoScience{github.com/hao-ai-lab/VideoScience}.
PDF11December 4, 2025