ChatPaper.aiChatPaper

PG-Video-LLaVA : Modèles de Langage Vidéo-Large à Ancrage Pixel

PG-Video-LLaVA: Pixel Grounding Large Video-Language Models

November 22, 2023
Auteurs: Shehan Munasinghe, Rusiru Thushara, Muhammad Maaz, Hanoona Abdul Rasheed, Salman Khan, Mubarak Shah, Fahad Khan
cs.AI

Résumé

L'extension des modèles multimodaux de grande taille (LMM) basés sur l'image aux vidéos représente un défi en raison de la complexité inhérente des données vidéo. Les approches récentes visant à étendre les LMM basés sur l'image aux vidéos manquent soit de capacités d'ancrage (par exemple, VideoChat, Video-ChatGPT, Video-LLaMA), soit n'exploitent pas les signaux audio pour une meilleure compréhension des vidéos (par exemple, Video-ChatGPT). Pour combler ces lacunes, nous proposons Video-LLaVA, le premier LMM doté d'une capacité d'ancrage au niveau des pixels, intégrant des indices audio en les transcrivant en texte pour enrichir la compréhension du contexte vidéo. Notre framework utilise un tracker prêt à l'emploi et un nouveau module d'ancrage, lui permettant de localiser spatialement et temporellement des objets dans les vidéos en suivant les instructions de l'utilisateur. Nous évaluons Video-LLaVA à l'aide de benchmarks génératifs et de question-réponse basés sur la vidéo et introduisons de nouveaux benchmarks spécifiquement conçus pour mesurer les performances d'ancrage d'objets basées sur des prompts dans les vidéos. De plus, nous proposons l'utilisation de Vicuna plutôt que GPT-3.5, comme utilisé dans Video-ChatGPT, pour le benchmarking des conversations basées sur la vidéo, garantissant ainsi la reproductibilité des résultats, ce qui est une préoccupation liée à la nature propriétaire de GPT-3.5. Notre framework s'appuie sur le modèle LLaVA basé sur l'image de pointe et étend ses avantages au domaine vidéo, offrant des gains prometteurs dans les tâches de conversation et d'ancrage basées sur la vidéo. Page du projet : https://github.com/mbzuai-oryx/Video-LLaVA
English
Extending image-based Large Multimodal Models (LMM) to videos is challenging due to the inherent complexity of video data. The recent approaches extending image-based LMM to videos either lack the grounding capabilities (e.g., VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we propose Video-LLaVA, the first LMM with pixel-level grounding capability, integrating audio cues by transcribing them into text to enrich video-context understanding. Our framework uses an off-the-shelf tracker and a novel grounding module, enabling it to spatially and temporally localize objects in videos following user instructions. We evaluate Video-LLaVA using video-based generative and question-answering benchmarks and introduce new benchmarks specifically designed to measure prompt-based object grounding performance in videos. Further, we propose the use of Vicuna over GPT-3.5, as utilized in Video-ChatGPT, for video-based conversation benchmarking, ensuring reproducibility of results which is a concern with the proprietary nature of GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its advantages to the video domain, delivering promising gains on video-based conversation and grounding tasks. Project Page: https://github.com/mbzuai-oryx/Video-LLaVA
PDF193December 15, 2024