TiViBench: Benchmarking für Denken-in-Video-Argumentation bei videogenerierenden Modellen
TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
November 17, 2025
papers.authors: Harold Haodong Chen, Disen Lan, Wen-Jie Shu, Qingyang Liu, Zihan Wang, Sirui Chen, Wenkai Cheng, Kanghao Chen, Hongfei Zhang, Zixin Zhang, Rongjin Guo, Yu Cheng, Ying-Cong Chen
cs.AI
papers.abstract
Die rasche Entwicklung von Video-Generierungsmodellen hat ihren Fokus von der Erzeugung visuell plausibler Ergebnisse auf Aufgaben verlagert, die physikalische Plausibilität und logische Konsistenz erfordern. Trotz jüngster Durchbrüche wie der Ketten-von-Bildern-Argumentation von Veo 3 bleibt jedoch unklar, ob diese Modelle ähnliche Denkfähigkeiten wie große Sprachmodelle (LLMs) aufweisen können. Bestehende Benchmarks bewerten hauptsächlich visuelle Qualität und zeitliche Kohärenz, erfassen aber keine höherwertigen Denkfähigkeiten. Um diese Lücke zu schließen, schlagen wir TiViBench vor, einen hierarchischen Benchmark, der speziell zur Bewertung der Denkfähigkeiten von Bild-zu-Video (I2V)-Generierungsmodellen entwickelt wurde. TiViBench bewertet systematisch das Denkvermögen über vier Dimensionen hinweg: i) Strukturelles Denken & Suche, ii) Räumliches & visuelles Musterdenken, iii) Symbolisches & logisches Denken und iv) Aktionsplanung & Aufgabenausführung, die 24 verschiedene Aufgabenstellungen über drei Schwierigkeitsgrade abdecken. Durch umfangreiche Evaluationen zeigen wir, dass kommerzielle Modelle (z.B. Sora 2, Veo 3.1) ein stärkeres Denkpotenzial aufweisen, während Open-Source-Modelle ungenutztes Potenzial offenbaren, das weiterhin durch begrenzte Trainingsumfänge und Datenvielfalt eingeschränkt bleibt. Um dieses Potenzial weiter zu erschließen, führen wir VideoTPO ein, eine einfache, aber effektive Testzeit-Strategie, die von Präferenzoptimierung inspiriert ist. Durch LLM-Selbstanalyse generierter Kandidaten zur Identifikation von Stärken und Schwächen verbessert VideoTPO die Denkleistung erheblich, ohne zusätzliches Training, Daten oder Belohnungsmodelle zu benötigen. Gemeinsam ebnen TiViBench und VideoTPO den Weg für die Bewertung und Weiterentwicklung von Denkfähigkeiten in Video-Generierungsmodellen und legen eine Grundlage für zukünftige Forschung in diesem aufstrebenden Bereich.
English
The rapid evolution of video generative models has shifted their focus from producing visually plausible outputs to tackling tasks requiring physical plausibility and logical consistency. However, despite recent breakthroughs such as Veo 3's chain-of-frames reasoning, it remains unclear whether these models can exhibit reasoning capabilities similar to large language models (LLMs). Existing benchmarks predominantly evaluate visual fidelity and temporal coherence, failing to capture higher-order reasoning abilities. To bridge this gap, we propose TiViBench, a hierarchical benchmark specifically designed to evaluate the reasoning capabilities of image-to-video (I2V) generation models. TiViBench systematically assesses reasoning across four dimensions: i) Structural Reasoning & Search, ii) Spatial & Visual Pattern Reasoning, iii) Symbolic & Logical Reasoning, and iv) Action Planning & Task Execution, spanning 24 diverse task scenarios across 3 difficulty levels. Through extensive evaluations, we show that commercial models (e.g., Sora 2, Veo 3.1) demonstrate stronger reasoning potential, while open-source models reveal untapped potential that remains hindered by limited training scale and data diversity. To further unlock this potential, we introduce VideoTPO, a simple yet effective test-time strategy inspired by preference optimization. By performing LLM self-analysis on generated candidates to identify strengths and weaknesses, VideoTPO significantly enhances reasoning performance without requiring additional training, data, or reward models. Together, TiViBench and VideoTPO pave the way for evaluating and advancing reasoning in video generation models, setting a foundation for future research in this emerging field.