PG-Video-LLaVA: Pixelgebaseerde Grote Video-Taalmodellen

Samenvatting

Het uitbreiden van op afbeeldingen gebaseerde Large Multimodal Models (LMM) naar video's is uitdagend vanwege de inherente complexiteit van videodata. Recente benaderingen die op afbeeldingen gebaseerde LMM's uitbreiden naar video's missen ofwel de mogelijkheid tot gronding (bijv. VideoChat, Video-ChatGPT, Video-LLaMA) of maken geen gebruik van audiosignalen voor een beter begrip van video's (bijv. Video-ChatGPT). Om deze tekortkomingen aan te pakken, stellen we Video-LLaVA voor, de eerste LMM met pixelniveau grondingsmogelijkheid, die audiocues integreert door ze om te zetten in tekst om het begrip van videocontext te verrijken. Ons framework maakt gebruik van een standaard tracker en een nieuwe grondingsmodule, waardoor het objecten in video's ruimtelijk en temporeel kan lokaliseren volgens gebruikersinstructies. We evalueren Video-LLaVA met behulp van op video's gebaseerde generatieve en vraag-antwoordbenchmarks en introduceren nieuwe benchmarks die specifiek zijn ontworpen om de prestaties van op prompts gebaseerde objectgronding in video's te meten. Verder stellen we het gebruik van Vicuna voor boven GPT-3.5, zoals gebruikt in Video-ChatGPT, voor het benchmarken van op video's gebaseerde gesprekken, om de reproduceerbaarheid van resultaten te waarborgen, wat een zorg is vanwege het propriëtaire karakter van GPT-3.5. Ons framework bouwt voort op de state-of-the-art op afbeeldingen gebaseerde LLaVA-model en breidt de voordelen ervan uit naar het videodomein, wat veelbelovende verbeteringen oplevert bij op video's gebaseerde gespreks- en grondingstaken. Projectpagina: https://github.com/mbzuai-oryx/Video-LLaVA

English

Extending image-based Large Multimodal Models (LMM) to videos is challenging due to the inherent complexity of video data. The recent approaches extending image-based LMM to videos either lack the grounding capabilities (e.g., VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we propose Video-LLaVA, the first LMM with pixel-level grounding capability, integrating audio cues by transcribing them into text to enrich video-context understanding. Our framework uses an off-the-shelf tracker and a novel grounding module, enabling it to spatially and temporally localize objects in videos following user instructions. We evaluate Video-LLaVA using video-based generative and question-answering benchmarks and introduce new benchmarks specifically designed to measure prompt-based object grounding performance in videos. Further, we propose the use of Vicuna over GPT-3.5, as utilized in Video-ChatGPT, for video-based conversation benchmarking, ensuring reproducibility of results which is a concern with the proprietary nature of GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its advantages to the video domain, delivering promising gains on video-based conversation and grounding tasks. Project Page: https://github.com/mbzuai-oryx/Video-LLaVA

PG-Video-LLaVA: Pixelgebaseerde Grote Video-Taalmodellen

PG-Video-LLaVA: Pixel Grounding Large Video-Language Models

Samenvatting

Support