ChatPaper.aiChatPaper

TiViBench : Évaluation du raisonnement par réflexion vidéo pour les modèles génératifs vidéo

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

November 17, 2025
papers.authors: Harold Haodong Chen, Disen Lan, Wen-Jie Shu, Qingyang Liu, Zihan Wang, Sirui Chen, Wenkai Cheng, Kanghao Chen, Hongfei Zhang, Zixin Zhang, Rongjin Guo, Yu Cheng, Ying-Cong Chen
cs.AI

papers.abstract

L'évolution rapide des modèles génératifs vidéo a déplacé leur objectif de la production de résultats visuellement plausibles vers la résolution de tâches exigeant une plausibilité physique et une cohérence logique. Cependant, malgré les récentes avancées telles que le raisonnement par chaîne d'images de Veo 3, il reste incertain si ces modèles peuvent manifester des capacités de raisonnement similaires aux grands modèles de langage (LLM). Les benchmarks existants évaluent principalement la fidélité visuelle et la cohérence temporelle, sans capturer les capacités de raisonnement d'ordre supérieur. Pour combler cette lacune, nous proposons TiViBench, un benchmark hiérarchique spécialement conçu pour évaluer les capacités de raisonnement des modèles de génération image-à-vidéo (I2V). TiViBench évalue systématiquement le raisonnement selon quatre dimensions : i) Raisonnement structurel et recherche, ii) Raisonnement spatial et reconnaissance de motifs visuels, iii) Raisonnement symbolique et logique, et iv) Planification d'actions et exécution de tâches, couvrant 24 scénarios de tâches variés répartis sur 3 niveaux de difficulté. Par des évaluations approfondies, nous montrons que les modèles commerciaux (ex. Sora 2, Veo 3.1) démontrent un potentiel de raisonnement plus robuste, tandis que les modèles open-source révèlent un potentiel inexploité qui reste entravé par une échelle d'entraînement et une diversité de données limitées. Pour libérer davantage ce potentiel, nous introduisons VideoTPO, une stratégie simple mais efficace d'optimisation en phase de test inspirée de l'optimisation des préférences. En réalisant une auto-analyse par LLM des candidats générés pour identifier leurs forces et faiblesses, VideoTPO améliore significativement les performances de raisonnement sans nécessiter d'entraînement supplémentaire, de données ou de modèles de récompense. Ensemble, TiViBench et VideoTPO ouvrent la voie à l'évaluation et au progrès du raisonnement dans les modèles de génération vidéo, établissant une base pour les recherches futures dans ce domaine émergent.
English
The rapid evolution of video generative models has shifted their focus from producing visually plausible outputs to tackling tasks requiring physical plausibility and logical consistency. However, despite recent breakthroughs such as Veo 3's chain-of-frames reasoning, it remains unclear whether these models can exhibit reasoning capabilities similar to large language models (LLMs). Existing benchmarks predominantly evaluate visual fidelity and temporal coherence, failing to capture higher-order reasoning abilities. To bridge this gap, we propose TiViBench, a hierarchical benchmark specifically designed to evaluate the reasoning capabilities of image-to-video (I2V) generation models. TiViBench systematically assesses reasoning across four dimensions: i) Structural Reasoning & Search, ii) Spatial & Visual Pattern Reasoning, iii) Symbolic & Logical Reasoning, and iv) Action Planning & Task Execution, spanning 24 diverse task scenarios across 3 difficulty levels. Through extensive evaluations, we show that commercial models (e.g., Sora 2, Veo 3.1) demonstrate stronger reasoning potential, while open-source models reveal untapped potential that remains hindered by limited training scale and data diversity. To further unlock this potential, we introduce VideoTPO, a simple yet effective test-time strategy inspired by preference optimization. By performing LLM self-analysis on generated candidates to identify strengths and weaknesses, VideoTPO significantly enhances reasoning performance without requiring additional training, data, or reward models. Together, TiViBench and VideoTPO pave the way for evaluating and advancing reasoning in video generation models, setting a foundation for future research in this emerging field.
PDF424December 1, 2025