PG-Video-LLaVA: Pixelgebaseerde Grote Video-Taalmodellen
PG-Video-LLaVA: Pixel Grounding Large Video-Language Models
November 22, 2023
Auteurs: Shehan Munasinghe, Rusiru Thushara, Muhammad Maaz, Hanoona Abdul Rasheed, Salman Khan, Mubarak Shah, Fahad Khan
cs.AI
Samenvatting
Het uitbreiden van op afbeeldingen gebaseerde Large Multimodal Models (LMM) naar video's is uitdagend vanwege de inherente complexiteit van videodata. Recente benaderingen die op afbeeldingen gebaseerde LMM's uitbreiden naar video's missen ofwel de mogelijkheid tot gronding (bijv. VideoChat, Video-ChatGPT, Video-LLaMA) of maken geen gebruik van audiosignalen voor een beter begrip van video's (bijv. Video-ChatGPT). Om deze tekortkomingen aan te pakken, stellen we Video-LLaVA voor, de eerste LMM met pixelniveau grondingsmogelijkheid, die audiocues integreert door ze om te zetten in tekst om het begrip van videocontext te verrijken. Ons framework maakt gebruik van een standaard tracker en een nieuwe grondingsmodule, waardoor het objecten in video's ruimtelijk en temporeel kan lokaliseren volgens gebruikersinstructies. We evalueren Video-LLaVA met behulp van op video's gebaseerde generatieve en vraag-antwoordbenchmarks en introduceren nieuwe benchmarks die specifiek zijn ontworpen om de prestaties van op prompts gebaseerde objectgronding in video's te meten. Verder stellen we het gebruik van Vicuna voor boven GPT-3.5, zoals gebruikt in Video-ChatGPT, voor het benchmarken van op video's gebaseerde gesprekken, om de reproduceerbaarheid van resultaten te waarborgen, wat een zorg is vanwege het propriëtaire karakter van GPT-3.5. Ons framework bouwt voort op de state-of-the-art op afbeeldingen gebaseerde LLaVA-model en breidt de voordelen ervan uit naar het videodomein, wat veelbelovende verbeteringen oplevert bij op video's gebaseerde gespreks- en grondingstaken. Projectpagina: https://github.com/mbzuai-oryx/Video-LLaVA
English
Extending image-based Large Multimodal Models (LMM) to videos is challenging
due to the inherent complexity of video data. The recent approaches extending
image-based LMM to videos either lack the grounding capabilities (e.g.,
VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for
better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we
propose Video-LLaVA, the first LMM with pixel-level grounding capability,
integrating audio cues by transcribing them into text to enrich video-context
understanding. Our framework uses an off-the-shelf tracker and a novel
grounding module, enabling it to spatially and temporally localize objects in
videos following user instructions. We evaluate Video-LLaVA using video-based
generative and question-answering benchmarks and introduce new benchmarks
specifically designed to measure prompt-based object grounding performance in
videos. Further, we propose the use of Vicuna over GPT-3.5, as utilized in
Video-ChatGPT, for video-based conversation benchmarking, ensuring
reproducibility of results which is a concern with the proprietary nature of
GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its
advantages to the video domain, delivering promising gains on video-based
conversation and grounding tasks. Project Page:
https://github.com/mbzuai-oryx/Video-LLaVA