TiViBench: 映像生成モデルのための映像内思考推論ベンチマーク
TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
November 17, 2025
著者: Harold Haodong Chen, Disen Lan, Wen-Jie Shu, Qingyang Liu, Zihan Wang, Sirui Chen, Wenkai Cheng, Kanghao Chen, Hongfei Zhang, Zixin Zhang, Rongjin Guo, Yu Cheng, Ying-Cong Chen
cs.AI
要旨
動画生成モデルの急速な進化により、その焦点は視覚的に妥当な出力の生成から、物理的な妥当性と論理的一貫性を必要とする課題への対応へと移行している。しかし、Veo 3の連鎖的フレーム推論のような近年の飛躍的進歩にもかかわらず、これらのモデルが大規模言語モデル(LLM)と同様の推論能力を示すことができるかどうかは依然として不明である。既存のベンチマークは主に視覚的忠実度と時間的一貫性を評価するものであり、高次元の推論能力を捉えられていない。このギャップを埋めるため、我々は画像から動画への生成モデルの推論能力を評価するために特別に設計された階層的ベンチマーク「TiViBench」を提案する。TiViBenchは、i) 構造的推論と探索、ii) 空間的・視覚的パターン推論、iii) 記号的・論理的推論、iv) 行動計画とタスク実行という4次元にわたる推論を、3つの難易度レベルにまたがる24の多様なタスクシナリオで体系的に評価する。大規模な評価を通じて、商用モデル(Sora 2、Veo 3.1など)はより強力な推論の潜在能力を示す一方、オープンソースモデルは、限られた訓練規模とデータ多様性によって阻害された未開拓の潜在能力を明らかにしている。この潜在能力をさらに解放するため、我々は選好最適化に着想を得た、単純ながら効果的なテスト時戦略「VideoTPO」を導入する。VideoTPOは、生成された候補に対してLLM自己分析を実行し、強みと弱みを特定することで、追加の訓練、データ、または報酬モデルを必要とせずに推論性能を大幅に向上させる。TiViBenchとVideoTPOは共に、動画生成モデルにおける推論の評価と進歩への道を開き、この新興分野における将来の研究の基盤を築くものである。
English
The rapid evolution of video generative models has shifted their focus from producing visually plausible outputs to tackling tasks requiring physical plausibility and logical consistency. However, despite recent breakthroughs such as Veo 3's chain-of-frames reasoning, it remains unclear whether these models can exhibit reasoning capabilities similar to large language models (LLMs). Existing benchmarks predominantly evaluate visual fidelity and temporal coherence, failing to capture higher-order reasoning abilities. To bridge this gap, we propose TiViBench, a hierarchical benchmark specifically designed to evaluate the reasoning capabilities of image-to-video (I2V) generation models. TiViBench systematically assesses reasoning across four dimensions: i) Structural Reasoning & Search, ii) Spatial & Visual Pattern Reasoning, iii) Symbolic & Logical Reasoning, and iv) Action Planning & Task Execution, spanning 24 diverse task scenarios across 3 difficulty levels. Through extensive evaluations, we show that commercial models (e.g., Sora 2, Veo 3.1) demonstrate stronger reasoning potential, while open-source models reveal untapped potential that remains hindered by limited training scale and data diversity. To further unlock this potential, we introduce VideoTPO, a simple yet effective test-time strategy inspired by preference optimization. By performing LLM self-analysis on generated candidates to identify strengths and weaknesses, VideoTPO significantly enhances reasoning performance without requiring additional training, data, or reward models. Together, TiViBench and VideoTPO pave the way for evaluating and advancing reasoning in video generation models, setting a foundation for future research in this emerging field.