PG-Video-LLaVA: Pixel-Grounding Große Video-Sprachmodelle

papers.abstract

Die Erweiterung bildbasierter großer multimodaler Modelle (LMM) auf Videos ist aufgrund der inhärenten Komplexität von Videodaten eine Herausforderung. Die jüngsten Ansätze, die bildbasierte LMM auf Videos erweitern, weisen entweder keine Verankerungsfähigkeiten auf (z. B. VideoChat, Video-ChatGPT, Video-LLaMA) oder nutzen die Audiosignale nicht für ein besseres Verständnis der Videos (z. B. Video-ChatGPT). Um diese Lücken zu schließen, schlagen wir Video-LLaVA vor, das erste LMM mit Pixel-genauer Verankerungsfähigkeit, das Audiosignale durch Transkription in Text integriert, um das Verständnis des Videokontexts zu bereichern. Unser Framework verwendet einen Standard-Tracker und ein neuartiges Verankerungsmodul, das es ermöglicht, Objekte in Videos räumlich und zeitlich gemäß Benutzeranweisungen zu lokalisieren. Wir evaluieren Video-LLaVA anhand von videobasierten Generierungs- und Frage-Antwort-Benchmarks und führen neue Benchmarks ein, die speziell zur Messung der promptbasierten Objektverankerungsleistung in Videos entwickelt wurden. Darüber hinaus schlagen wir die Verwendung von Vicuna anstelle von GPT-3.5, wie in Video-ChatGPT verwendet, für videobasierte Konversationsbenchmarks vor, um die Reproduzierbarkeit der Ergebnisse sicherzustellen, was aufgrund der proprietären Natur von GPT-3.5 ein Problem darstellt. Unser Framework baut auf dem State-of-the-Art bildbasierten LLaVA-Modell auf und erweitert dessen Vorteile auf den Videobereich, wodurch vielversprechende Fortschritte bei videobasierten Konversations- und Verankerungsaufgaben erzielt werden. Projektseite: https://github.com/mbzuai-oryx/Video-LLaVA

English

Extending image-based Large Multimodal Models (LMM) to videos is challenging due to the inherent complexity of video data. The recent approaches extending image-based LMM to videos either lack the grounding capabilities (e.g., VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we propose Video-LLaVA, the first LMM with pixel-level grounding capability, integrating audio cues by transcribing them into text to enrich video-context understanding. Our framework uses an off-the-shelf tracker and a novel grounding module, enabling it to spatially and temporally localize objects in videos following user instructions. We evaluate Video-LLaVA using video-based generative and question-answering benchmarks and introduce new benchmarks specifically designed to measure prompt-based object grounding performance in videos. Further, we propose the use of Vicuna over GPT-3.5, as utilized in Video-ChatGPT, for video-based conversation benchmarking, ensuring reproducibility of results which is a concern with the proprietary nature of GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its advantages to the video domain, delivering promising gains on video-based conversation and grounding tasks. Project Page: https://github.com/mbzuai-oryx/Video-LLaVA

PG-Video-LLaVA: Pixel-Grounding Große Video-Sprachmodelle

PG-Video-LLaVA: Pixel Grounding Large Video-Language Models

papers.abstract

Support