Vript : Une vidéo vaut mille mots
Vript: A Video Is Worth Thousands of Words
June 10, 2024
Auteurs: Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao
cs.AI
Résumé
Les avancées dans l'apprentissage multimodal, en particulier dans la compréhension et la génération de vidéos, nécessitent des ensembles de données vidéo-texte de haute qualité pour améliorer les performances des modèles. Vript répond à ce besoin avec un corpus méticuleusement annoté de 12 000 vidéos haute résolution, offrant des légendes détaillées, denses et proches de scénarios pour plus de 420 000 clips. Chaque clip est accompagné d'une légende d'environ 145 mots, soit plus de 10 fois la longueur de la plupart des ensembles de données vidéo-texte existants. Contrairement aux légendes qui ne documentent que le contenu statique dans les ensembles de données précédents, nous enrichissons la description vidéo en la transformant en scénarisation vidéo, en documentant non seulement le contenu, mais aussi les opérations de caméra, qui incluent les types de plans (plan moyen, gros plan, etc.) et les mouvements de caméra (panoramique, inclinaison, etc.). En utilisant Vript, nous explorons trois paradigmes d'entraînement visant à aligner davantage de texte avec la modalité vidéo plutôt que des paires clip-légende. Cela donne naissance à Vriptor, un modèle de description vidéo parmi les meilleurs parmi les modèles open-source, comparable à GPT-4V en termes de performance. Vriptor est également un modèle puissant capable de générer de manière end-to-end des légendes denses et détaillées pour des vidéos longues. De plus, nous introduisons Vript-Hard, un benchmark composé de trois tâches de compréhension vidéo plus complexes que les benchmarks existants : Vript-HAL est le premier benchmark évaluant les hallucinations d'actions et d'objets dans les modèles de langage vidéo (LLMs), Vript-RR combine le raisonnement avec la résolution d'ambiguïté dans les questions-réponses sur des vidéos longues, et Vript-ERO est une nouvelle tâche pour évaluer la compréhension temporelle des événements dans des vidéos longues plutôt que des actions dans des vidéos courtes comme dans les travaux précédents. Tous les codes, modèles et ensembles de données sont disponibles sur https://github.com/mutonix/Vript.
English
Advancements in multimodal learning, particularly in video understanding and
generation, require high-quality video-text datasets for improved model
performance. Vript addresses this issue with a meticulously annotated corpus of
12K high-resolution videos, offering detailed, dense, and script-like captions
for over 420K clips. Each clip has a caption of ~145 words, which is over 10x
longer than most video-text datasets. Unlike captions only documenting static
content in previous datasets, we enhance video captioning to video scripting by
documenting not just the content, but also the camera operations, which include
the shot types (medium shot, close-up, etc) and camera movements (panning,
tilting, etc). By utilizing the Vript, we explore three training paradigms of
aligning more text with the video modality rather than clip-caption pairs. This
results in Vriptor, a top-performing video captioning model among open-source
models, comparable to GPT-4V in performance. Vriptor is also a powerful model
capable of end-to-end generation of dense and detailed captions for long
videos. Moreover, we introduce Vript-Hard, a benchmark consisting of three
video understanding tasks that are more challenging than existing benchmarks:
Vript-HAL is the first benchmark evaluating action and object hallucinations in
video LLMs, Vript-RR combines reasoning with retrieval resolving question
ambiguity in long-video QAs, and Vript-ERO is a new task to evaluate the
temporal understanding of events in long videos rather than actions in short
videos in previous works. All code, models, and datasets are available in
https://github.com/mutonix/Vript.Summary
AI-Generated Summary