TiViBench: Een benchmark voor denk-in-video redenering bij videogeneratieve modellen
TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
November 17, 2025
Auteurs: Harold Haodong Chen, Disen Lan, Wen-Jie Shu, Qingyang Liu, Zihan Wang, Sirui Chen, Wenkai Cheng, Kanghao Chen, Hongfei Zhang, Zixin Zhang, Rongjin Guo, Yu Cheng, Ying-Cong Chen
cs.AI
Samenvatting
De snelle evolutie van videogeneratieve modellen heeft hun focus verlegd van het produceren van visueel geloofwaardige resultaten naar het aanpakken van taken die fysieke geloofwaardigheid en logische consistentie vereisen. Ondanks recente doorbraken, zoals de 'chain-of-frames'-redenering van Veo 3, is het echter nog onduidelijk of deze modellen redeneervermogens kunnen vertonen die vergelijkbaar zijn met die van grote taalmmodellen (LLM's). Bestaande benchmarks beoordelen voornamelijk visuele kwaliteit en temporele coherentie, maar slagen er niet in om hogere-orde redeneervermogens te meten. Om deze kloof te overbruggen, stellen we TiViBench voor, een hiërarchische benchmark die specifiek is ontworpen om de redeneercapaciteiten van image-to-video (I2V) generatiemodellen te evalueren. TiViBench beoordeelt redenering systematisch over vier dimensies: i) Structureel Redeneren & Zoeken, ii) Ruimtelijk & Visueel Patroonredeneren, iii) Symbolisch & Logisch Redeneren, en iv) Actieplanning & Taakuitvoering, verspreid over 24 diverse taakscenario's op 3 moeilijkheidsniveaus. Uit uitgebreide evaluaties blijkt dat commerciële modellen (zoals Sora 2, Veo 3.1) een sterker redeneerpotentieel demonstreren, terwijl open-source modellen onbenut potentieel vertonen dat nog steeds wordt belemmerd door een beperkte trainingsschaal en datadiversiteit. Om dit potentieel verder te ontsluiten, introduceren we VideoTPO, een eenvoudige maar effectieve testtijdstrategie geïnspireerd door voorkeursoptimalisatie. Door middel van LLM-zelfanalyse op gegenereerde kandidaatvideo's om sterke en zwakke punten te identificeren, verbetert VideoTPO de redeneerprestaties aanzienlijk zonder extra training, data of beloningsmodellen nodig te hebben. Samen banen TiViBench en VideoTPO de weg voor het evalueren en bevorderen van redenering in videogeneratiemodellen, en leggen ze een basis voor toekomstig onderzoek in dit opkomende veld.
English
The rapid evolution of video generative models has shifted their focus from producing visually plausible outputs to tackling tasks requiring physical plausibility and logical consistency. However, despite recent breakthroughs such as Veo 3's chain-of-frames reasoning, it remains unclear whether these models can exhibit reasoning capabilities similar to large language models (LLMs). Existing benchmarks predominantly evaluate visual fidelity and temporal coherence, failing to capture higher-order reasoning abilities. To bridge this gap, we propose TiViBench, a hierarchical benchmark specifically designed to evaluate the reasoning capabilities of image-to-video (I2V) generation models. TiViBench systematically assesses reasoning across four dimensions: i) Structural Reasoning & Search, ii) Spatial & Visual Pattern Reasoning, iii) Symbolic & Logical Reasoning, and iv) Action Planning & Task Execution, spanning 24 diverse task scenarios across 3 difficulty levels. Through extensive evaluations, we show that commercial models (e.g., Sora 2, Veo 3.1) demonstrate stronger reasoning potential, while open-source models reveal untapped potential that remains hindered by limited training scale and data diversity. To further unlock this potential, we introduce VideoTPO, a simple yet effective test-time strategy inspired by preference optimization. By performing LLM self-analysis on generated candidates to identify strengths and weaknesses, VideoTPO significantly enhances reasoning performance without requiring additional training, data, or reward models. Together, TiViBench and VideoTPO pave the way for evaluating and advancing reasoning in video generation models, setting a foundation for future research in this emerging field.