ChatPaper.aiChatPaper

TVBench : Refonte de l'évaluation Vidéo-Langage

TVBench: Redesigning Video-Language Evaluation

October 10, 2024
papers.authors: Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano
cs.AI

papers.abstract

Les grands modèles de langage ont démontré des performances impressionnantes lorsqu'ils sont intégrés avec des modèles de vision, permettant même la compréhension vidéo. Cependant, l'évaluation de ces modèles vidéo présente ses propres défis uniques, pour lesquels plusieurs référentiels ont été proposés. Dans cet article, nous montrons que les référentiels vidéo-langage les plus utilisés actuellement peuvent être résolus sans nécessiter beaucoup de raisonnement temporel. Nous avons identifié trois problèmes principaux dans les ensembles de données existants : (i) les informations statiques des images individuelles sont souvent suffisantes pour résoudre les tâches, (ii) le texte des questions et des réponses possibles est trop informatif, permettant aux modèles de répondre correctement sans se baser sur une entrée visuelle, (iii) la connaissance du monde seule peut répondre à bon nombre des questions, faisant des référentiels un test de reproduction de connaissances plutôt que de raisonnement visuel. De plus, nous avons constaté que les référentiels de questions-réponses ouvertes pour la compréhension vidéo souffrent de problèmes similaires, tandis que le processus d'évaluation automatique avec les LLM est peu fiable, en faisant une alternative inadaptée. En guise de solution, nous proposons TVBench, un nouveau référentiel vidéo open-source de questions à choix multiples, et démontrons à travers des évaluations approfondies qu'il nécessite un haut niveau de compréhension temporelle. De manière surprenante, nous constatons que la plupart des modèles vidéo-langage de pointe récents ont des performances similaires à celles du hasard sur TVBench, seuls Gemini-Pro et Tarsier dépassant clairement cette référence.
English
Large language models have demonstrated impressive performance when integrated with vision models even enabling video understanding. However, evaluating these video models presents its own unique challenges, for which several benchmarks have been proposed. In this paper, we show that the currently most used video-language benchmarks can be solved without requiring much temporal reasoning. We identified three main issues in existing datasets: (i) static information from single frames is often sufficient to solve the tasks (ii) the text of the questions and candidate answers is overly informative, allowing models to answer correctly without relying on any visual input (iii) world knowledge alone can answer many of the questions, making the benchmarks a test of knowledge replication rather than visual reasoning. In addition, we found that open-ended question-answering benchmarks for video understanding suffer from similar issues while the automatic evaluation process with LLMs is unreliable, making it an unsuitable alternative. As a solution, we propose TVBench, a novel open-source video multiple-choice question-answering benchmark, and demonstrate through extensive evaluations that it requires a high level of temporal understanding. Surprisingly, we find that most recent state-of-the-art video-language models perform similarly to random performance on TVBench, with only Gemini-Pro and Tarsier clearly surpassing this baseline.
PDF62November 16, 2024