MM-VID : Faire progresser la compréhension vidéo avec GPT-4V(ision)

MM-VID: Advancing Video Understanding with GPT-4V(ision)

October 30, 2023
Auteurs: Kevin Lin, Faisal Ahmed, Linjie Li, Chung-Ching Lin, Ehsan Azarnasab, Zhengyuan Yang, Jianfeng Wang, Lin Liang, Zicheng Liu, Yumao Lu, Ce Liu, Lijuan Wang
cs.AI

Résumé

Nous présentons MM-VID, un système intégré qui exploite les capacités de GPT-4V, combinées à des outils spécialisés en vision, audio et parole, pour faciliter une compréhension avancée des vidéos. MM-VID est conçu pour relever les défis posés par les vidéos de longue durée et les tâches complexes telles que le raisonnement sur des contenus d'une heure et la compréhension d'intrigues s'étendant sur plusieurs épisodes. MM-VID utilise une génération de script à partir de vidéo avec GPT-4V pour transcrire les éléments multimodaux en un long script textuel. Le script généré détaille les mouvements, actions, expressions et dialogues des personnages, ouvrant la voie aux grands modèles de langage (LLMs) pour atteindre une compréhension vidéo. Cela permet des capacités avancées, incluant la description audio, l'identification des personnages et une compréhension multimodale de haut niveau. Les résultats expérimentaux démontrent l'efficacité de MM-VID à traiter différents genres de vidéos avec des durées variées. De plus, nous illustrons son potentiel lorsqu'il est appliqué à des environnements interactifs, tels que les jeux vidéo et les interfaces graphiques utilisateur.
English
We present MM-VID, an integrated system that harnesses the capabilities of GPT-4V, combined with specialized tools in vision, audio, and speech, to facilitate advanced video understanding. MM-VID is designed to address the challenges posed by long-form videos and intricate tasks such as reasoning within hour-long content and grasping storylines spanning multiple episodes. MM-VID uses a video-to-script generation with GPT-4V to transcribe multimodal elements into a long textual script. The generated script details character movements, actions, expressions, and dialogues, paving the way for large language models (LLMs) to achieve video understanding. This enables advanced capabilities, including audio description, character identification, and multimodal high-level comprehension. Experimental results demonstrate the effectiveness of MM-VID in handling distinct video genres with various video lengths. Additionally, we showcase its potential when applied to interactive environments, such as video games and graphic user interfaces.

Summary

AI-Generated Summary

PDF201December 15, 2024