Banc E.T. : Vers une compréhension ouverte des événements au niveau vidéo-langage
E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding
September 26, 2024
Auteurs: Ye Liu, Zongyang Ma, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
Résumé
Les récentes avancées dans les Modèles de Langage à Grande Échelle pour les Vidéos (Video-LLMs) ont démontré leur grand potentiel dans la compréhension vidéo à usage général. Pour vérifier l'importance de ces modèles, plusieurs référentiels ont été proposés pour diagnostiquer leurs capacités dans différents scénarios. Cependant, les référentiels existants évaluent simplement les modèles à travers des questions-réponses au niveau de la vidéo, en manquant d'une évaluation fine au niveau des événements et d'une diversité de tâches. Pour combler cette lacune, nous introduisons E.T. Bench (Référentiel pour la Compréhension Vidéo au Niveau des Événements et Sensible au Temps), un référentiel à grande échelle et de haute qualité pour la compréhension vidéo au niveau des événements ouverte. Catégorisé dans une taxonomie de tâches à 3 niveaux, E.T. Bench englobe 7,3K échantillons répartis en 12 tâches avec 7K vidéos (251,4h au total) dans 8 domaines, offrant des évaluations complètes. Nous avons évalué de manière approfondie 8 Modèles de Langage pour les Images et 12 Modèles de Langage pour les Vidéos sur notre référentiel, et les résultats révèlent que les modèles de pointe pour la compréhension de niveau grossier (au niveau de la vidéo) ont du mal à résoudre nos tâches fines, par exemple, à ancrer des événements d'intérêt au sein des vidéos, principalement en raison de la courte longueur du contexte vidéo, des représentations temporelles inadéquates et du manque de données d'entraînement multi-événements. En mettant l'accent sur ces problèmes, nous proposons en outre un modèle de base solide, E.T. Chat, accompagné d'un ensemble de données d'ajustement d'instructions E.T. Instruct 164K adapté à la compréhension fine des événements. Notre solution simple mais efficace démontre des performances supérieures dans de multiples scénarios.
English
Recent advances in Video Large Language Models (Video-LLMs) have demonstrated
their great potential in general-purpose video understanding. To verify the
significance of these models, a number of benchmarks have been proposed to
diagnose their capabilities in different scenarios. However, existing
benchmarks merely evaluate models through video-level question-answering,
lacking fine-grained event-level assessment and task diversity. To fill this
gap, we introduce E.T. Bench (Event-Level & Time-Sensitive Video Understanding
Benchmark), a large-scale and high-quality benchmark for open-ended event-level
video understanding. Categorized within a 3-level task taxonomy, E.T. Bench
encompasses 7.3K samples under 12 tasks with 7K videos (251.4h total length)
under 8 domains, providing comprehensive evaluations. We extensively evaluated
8 Image-LLMs and 12 Video-LLMs on our benchmark, and the results reveal that
state-of-the-art models for coarse-level (video-level) understanding struggle
to solve our fine-grained tasks, e.g., grounding event-of-interests within
videos, largely due to the short video context length, improper time
representations, and lack of multi-event training data. Focusing on these
issues, we further propose a strong baseline model, E.T. Chat, together with an
instruction-tuning dataset E.T. Instruct 164K tailored for fine-grained
event-level understanding. Our simple but effective solution demonstrates
superior performance in multiple scenarios.Summary
AI-Generated Summary