映像生成AIの科学的理解と推論能力を評価するためのベンチマーク:VideoScience-Benchの提案
Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench
December 2, 2025
著者: Lanxiang Hu, Abhilash Shankarampeta, Yixin Huang, Zilin Dai, Haoyang Yu, Yujie Zhao, Haoqiang Kang, Daniel Zhao, Tajana Rosing, Hao Zhang
cs.AI
要旨
ビデオ生成の次のフロンティアは、ゼロショット推論が可能なモデルの開発にある。多様な条件下で正確な物理的結果をモデル化するには、現実世界の科学的法則を理解することが極めて重要である。しかし、既存のビデオベンチマークは物理的常識に基づいており、ビデオモデルの科学的推論能力を深く評価するには限界がある。本研究では、ビデオモデルにおける大学教養レベル以上の科学的理解を評価するためのベンチマーク「VideoScience-Bench」を提案する。各プロンプトは複数の科学的概念にわたる理解と推論を必要とする複合的な科学的シナリオをコード化しており、正しい現象を生成することを求める。本ベンチマークは、物理学と化学の14分野・103概念をカバーする、厳選された200のプロンプトで構成される。T2VおよびI2V設定における7つの最先端ビデオモデルに対し、専門家による注釈に基づく評価を(1)プロンプト一貫性、(2)現象適合性、(3)動的正确性、(4)不変性、(5)時空間連続性——の5次元で実施した。VLM-as-a-Judgeを用いてビデオ生成を評価した結果、人間の評価との強い相関が確認された。私たちの知る限り、VideoScience-Benchは、ビデオモデルを単なる生成器としてではなく推論器として評価する初のベンチマークであり、生成結果が期待される物理・化学現象と合致する科学的理解を示すことを要求する。データと評価コードはhttps://github.com/hao-ai-lab/VideoScience で公開している。
English
The next frontier for video generation lies in developing models capable of zero-shot reasoning, where understanding real-world scientific laws is crucial for accurate physical outcome modeling under diverse conditions. However, existing video benchmarks are physical commonsense-based, offering limited insight into video models' scientific reasoning capability. We introduce VideoScience-Bench, a benchmark designed to evaluate undergraduate-level scientific understanding in video models. Each prompt encodes a composite scientific scenario that requires understanding and reasoning across multiple scientific concepts to generate the correct phenomenon. The benchmark comprises 200 carefully curated prompts spanning 14 topics and 103 concepts in physics and chemistry. We conduct expert-annotated evaluations across seven state-of-the-art video models in T2V and I2V settings along five dimensions: Prompt Consistency, Phenomenon Congruency, Correct Dynamism, Immutability, and Spatio-Temporal Continuity. Using a VLM-as-a-Judge to assess video generations, we observe strong correlation with human assessments. To the best of our knowledge, VideoScience-Bench is the first benchmark to evaluate video models not only as generators but also as reasoners, requiring their generations to demonstrate scientific understanding consistent with expected physical and chemical phenomena. Our data and evaluation code are available at: https://github.com/hao-ai-lab/VideoScience{github.com/hao-ai-lab/VideoScience}.