Banc E.T. : Vers une compréhension ouverte des événements au niveau vidéo-langage

papers.abstract

Les récentes avancées dans les Modèles de Langage à Grande Échelle pour les Vidéos (Video-LLMs) ont démontré leur grand potentiel dans la compréhension vidéo à usage général. Pour vérifier l'importance de ces modèles, plusieurs référentiels ont été proposés pour diagnostiquer leurs capacités dans différents scénarios. Cependant, les référentiels existants évaluent simplement les modèles à travers des questions-réponses au niveau de la vidéo, en manquant d'une évaluation fine au niveau des événements et d'une diversité de tâches. Pour combler cette lacune, nous introduisons E.T. Bench (Référentiel pour la Compréhension Vidéo au Niveau des Événements et Sensible au Temps), un référentiel à grande échelle et de haute qualité pour la compréhension vidéo au niveau des événements ouverte. Catégorisé dans une taxonomie de tâches à 3 niveaux, E.T. Bench englobe 7,3K échantillons répartis en 12 tâches avec 7K vidéos (251,4h au total) dans 8 domaines, offrant des évaluations complètes. Nous avons évalué de manière approfondie 8 Modèles de Langage pour les Images et 12 Modèles de Langage pour les Vidéos sur notre référentiel, et les résultats révèlent que les modèles de pointe pour la compréhension de niveau grossier (au niveau de la vidéo) ont du mal à résoudre nos tâches fines, par exemple, à ancrer des événements d'intérêt au sein des vidéos, principalement en raison de la courte longueur du contexte vidéo, des représentations temporelles inadéquates et du manque de données d'entraînement multi-événements. En mettant l'accent sur ces problèmes, nous proposons en outre un modèle de base solide, E.T. Chat, accompagné d'un ensemble de données d'ajustement d'instructions E.T. Instruct 164K adapté à la compréhension fine des événements. Notre solution simple mais efficace démontre des performances supérieures dans de multiples scénarios.

English

Recent advances in Video Large Language Models (Video-LLMs) have demonstrated their great potential in general-purpose video understanding. To verify the significance of these models, a number of benchmarks have been proposed to diagnose their capabilities in different scenarios. However, existing benchmarks merely evaluate models through video-level question-answering, lacking fine-grained event-level assessment and task diversity. To fill this gap, we introduce E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark), a large-scale and high-quality benchmark for open-ended event-level video understanding. Categorized within a 3-level task taxonomy, E.T. Bench encompasses 7.3K samples under 12 tasks with 7K videos (251.4h total length) under 8 domains, providing comprehensive evaluations. We extensively evaluated 8 Image-LLMs and 12 Video-LLMs on our benchmark, and the results reveal that state-of-the-art models for coarse-level (video-level) understanding struggle to solve our fine-grained tasks, e.g., grounding event-of-interests within videos, largely due to the short video context length, improper time representations, and lack of multi-event training data. Focusing on these issues, we further propose a strong baseline model, E.T. Chat, together with an instruction-tuning dataset E.T. Instruct 164K tailored for fine-grained event-level understanding. Our simple but effective solution demonstrates superior performance in multiple scenarios.

Banc E.T. : Vers une compréhension ouverte des événements au niveau vidéo-langage

E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding

papers.abstract

Support