日刊論文

V-ReasonBench：映像生成モデルのための統合推論ベンチマークスイートに向けて
V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

Nov 20

ByYang Luo, Xuanlei Zhao, Baijiong Lin, Lingting Zhu, Liyao Tang, Yuqi Liu, Ying-Cong Chen, Shengju Qian, Xin Wang, Yang You

最近の生成ビデオモデル、特にVeo-3の進展は、驚くべきゼロショット推論能力を示しており、体系的で信頼性のある評価の必要性が高まっている。本論文では、V-ReasonBenchを紹介する。このベンチマークは、構造化された問題解決、空間認知、パターンに基づく推論、物理的ダイナミクスという4つの主要な次元にわたるビデオ推論を評価するために設計されている。ベンチマークは、合成および実世界の画像シーケンスから構築され、再現性、拡張性、曖昧さのない多様な検証可能なタスクを提供する。6つの最先端ビデオモデルの評価により、構造化、空間、パターンに基づく、および物理的推論において明確な次元ごとの差異が明らかになった。さらに、ビデオモデルと強力な画像モデルを比較し、一般的な幻覚行動を分析し、ビデオの長さがフレーム連鎖推論にどのように影響するかを研究した。全体として、V-ReasonBenchは、ビデオ推論を測定するための統一された再現可能なフレームワークを提供し、より信頼性が高く人間に沿った推論スキルを持つモデルの開発を支援することを目指している。

V-ReasonBench：映像生成モデルのための統合推論ベンチマークスイートに向けてV-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

日刊論文

V-ReasonBench：映像生成モデルのための統合推論ベンチマークスイートに向けてV-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

V-ReasonBench：映像生成モデルのための統合推論ベンチマークスイートに向けて
V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

V-ReasonBench：映像生成モデルのための統合推論ベンチマークスイートに向けて
V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models