TiViBench: Benchmark per il Ragionamento Think-in-Video nei Modelli Generativi Video
TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
November 17, 2025
Autori: Harold Haodong Chen, Disen Lan, Wen-Jie Shu, Qingyang Liu, Zihan Wang, Sirui Chen, Wenkai Cheng, Kanghao Chen, Hongfei Zhang, Zixin Zhang, Rongjin Guo, Yu Cheng, Ying-Cong Chen
cs.AI
Abstract
La rapida evoluzione dei modelli generativi video ha spostato il loro focus dalla produzione di risultati visivamente plausibili all'affrontare compiti che richiedono plausibilità fisica e coerenza logica. Tuttavia, nonostante le recenti svolte come il ragionamento a catena di frame di Veo 3, rimane poco chiaro se questi modelli possano esibire capacità di ragionamento simili a quelle dei grandi modelli linguistici (LLM). I benchmark esistenti valutano prevalentemente la fedeltà visiva e la coerenza temporale, non riuscendo a cogliere le abilità di ragionamento di ordine superiore. Per colmare questa lacuna, proponiamo TiViBench, un benchmark gerarchico progettato specificamente per valutare le capacità di ragionamento dei modelli di generazione da immagine a video (I2V). TiViBench valuta sistematicamente il ragionamento lungo quattro dimensioni: i) Ragionamento Strutturale e Ricerca, ii) Ragionamento su Pattern Spaziali e Visivi, iii) Ragionamento Simbolico e Logico, e iv) Pianificazione delle Azioni ed Esecuzione dei Compiti, coprendo 24 scenari di task diversi su 3 livelli di difficoltà. Tramite valutazioni estensive, mostriamo che i modelli commerciali (ad es., Sora 2, Veo 3.1) dimostrano un potenziale di ragionamento più forte, mentre i modelli open-source rivelano un potenziale inespresso che rimane ostacolato da una scala di addestramento e una diversità dei dati limitate. Per sbloccare ulteriormente questo potenziale, introduciamo VideoTPO, una strategia semplice ma efficace da applicare al momento del test, ispirata all'ottimizzazione delle preferenze. Eseguendo un'auto-analisi tramite LLM sui candidati generati per identificarne punti di forza e debolezze, VideoTPO migliora significativamente le prestazioni di ragionamento senza richiedere addestramento aggiuntivo, dati aggiuntivi o modelli di reward. Insieme, TiViBench e VideoTPO aprono la strada alla valutazione e al progresso del ragionamento nei modelli di generazione video, ponendo una base per la futura ricerca in questo campo emergente.
English
The rapid evolution of video generative models has shifted their focus from producing visually plausible outputs to tackling tasks requiring physical plausibility and logical consistency. However, despite recent breakthroughs such as Veo 3's chain-of-frames reasoning, it remains unclear whether these models can exhibit reasoning capabilities similar to large language models (LLMs). Existing benchmarks predominantly evaluate visual fidelity and temporal coherence, failing to capture higher-order reasoning abilities. To bridge this gap, we propose TiViBench, a hierarchical benchmark specifically designed to evaluate the reasoning capabilities of image-to-video (I2V) generation models. TiViBench systematically assesses reasoning across four dimensions: i) Structural Reasoning & Search, ii) Spatial & Visual Pattern Reasoning, iii) Symbolic & Logical Reasoning, and iv) Action Planning & Task Execution, spanning 24 diverse task scenarios across 3 difficulty levels. Through extensive evaluations, we show that commercial models (e.g., Sora 2, Veo 3.1) demonstrate stronger reasoning potential, while open-source models reveal untapped potential that remains hindered by limited training scale and data diversity. To further unlock this potential, we introduce VideoTPO, a simple yet effective test-time strategy inspired by preference optimization. By performing LLM self-analysis on generated candidates to identify strengths and weaknesses, VideoTPO significantly enhances reasoning performance without requiring additional training, data, or reward models. Together, TiViBench and VideoTPO pave the way for evaluating and advancing reasoning in video generation models, setting a foundation for future research in this emerging field.