papers.description
Les récents progrès des modèles génératifs vidéo, tels que Veo-3, ont révélé des capacités de raisonnement en zero-shot surprenantes, créant un besoin croissant d'évaluation systématique et fiable. Nous présentons V-ReasonBench, un benchmark conçu pour évaluer le raisonnement vidéo selon quatre dimensions clés : la résolution de problèmes structurés, la cognition spatiale, l'inférence basée sur des motifs et la dynamique physique. Ce benchmark est construit à partir de séquences d'images synthétiques et réelles, et propose un ensemble diversifié de tâches vérifiables, reproductibles, évolutives et non ambiguës. Les évaluations de six modèles vidéo de pointe révèlent des différences marquées selon les dimensions, avec des variations significatives dans le raisonnement structuré, spatial, basé sur des motifs et physique. Nous comparons également les modèles vidéo avec des modèles d'images performants, analysons les comportements courants d'hallucination et étudions l'impact de la durée des vidéos sur le raisonnement en chaîne d'images. Globalement, V-ReasonBench offre un cadre unifié et reproductible pour mesurer le raisonnement vidéo et vise à soutenir le développement de modèles dotés de compétences de raisonnement plus fiables et alignées sur l'humain.