PG-Video-LLaVA: Pixel-Grounding Große Video-Sprachmodelle
PG-Video-LLaVA: Pixel Grounding Large Video-Language Models
November 22, 2023
Autoren: Shehan Munasinghe, Rusiru Thushara, Muhammad Maaz, Hanoona Abdul Rasheed, Salman Khan, Mubarak Shah, Fahad Khan
cs.AI
Zusammenfassung
Die Erweiterung bildbasierter großer multimodaler Modelle (LMM) auf Videos ist aufgrund der inhärenten Komplexität von Videodaten eine Herausforderung. Die jüngsten Ansätze, die bildbasierte LMM auf Videos erweitern, weisen entweder keine Verankerungsfähigkeiten auf (z. B. VideoChat, Video-ChatGPT, Video-LLaMA) oder nutzen die Audiosignale nicht für ein besseres Verständnis der Videos (z. B. Video-ChatGPT). Um diese Lücken zu schließen, schlagen wir Video-LLaVA vor, das erste LMM mit Pixel-genauer Verankerungsfähigkeit, das Audiosignale durch Transkription in Text integriert, um das Verständnis des Videokontexts zu bereichern. Unser Framework verwendet einen Standard-Tracker und ein neuartiges Verankerungsmodul, das es ermöglicht, Objekte in Videos räumlich und zeitlich gemäß Benutzeranweisungen zu lokalisieren. Wir evaluieren Video-LLaVA anhand von videobasierten Generierungs- und Frage-Antwort-Benchmarks und führen neue Benchmarks ein, die speziell zur Messung der promptbasierten Objektverankerungsleistung in Videos entwickelt wurden. Darüber hinaus schlagen wir die Verwendung von Vicuna anstelle von GPT-3.5, wie in Video-ChatGPT verwendet, für videobasierte Konversationsbenchmarks vor, um die Reproduzierbarkeit der Ergebnisse sicherzustellen, was aufgrund der proprietären Natur von GPT-3.5 ein Problem darstellt. Unser Framework baut auf dem State-of-the-Art bildbasierten LLaVA-Modell auf und erweitert dessen Vorteile auf den Videobereich, wodurch vielversprechende Fortschritte bei videobasierten Konversations- und Verankerungsaufgaben erzielt werden. Projektseite: https://github.com/mbzuai-oryx/Video-LLaVA
English
Extending image-based Large Multimodal Models (LMM) to videos is challenging
due to the inherent complexity of video data. The recent approaches extending
image-based LMM to videos either lack the grounding capabilities (e.g.,
VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for
better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we
propose Video-LLaVA, the first LMM with pixel-level grounding capability,
integrating audio cues by transcribing them into text to enrich video-context
understanding. Our framework uses an off-the-shelf tracker and a novel
grounding module, enabling it to spatially and temporally localize objects in
videos following user instructions. We evaluate Video-LLaVA using video-based
generative and question-answering benchmarks and introduce new benchmarks
specifically designed to measure prompt-based object grounding performance in
videos. Further, we propose the use of Vicuna over GPT-3.5, as utilized in
Video-ChatGPT, for video-based conversation benchmarking, ensuring
reproducibility of results which is a concern with the proprietary nature of
GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its
advantages to the video domain, delivering promising gains on video-based
conversation and grounding tasks. Project Page:
https://github.com/mbzuai-oryx/Video-LLaVA