PG-Video-LLaVA: Modelli Linguistico-Visuali su Grande Scala con Ancoraggio Pixel per Video

Abstract

Estendere i Large Multimodal Models (LMM) basati su immagini ai video è una sfida a causa della complessità intrinseca dei dati video. Gli approcci recenti che estendono i LMM basati su immagini ai video mancano di capacità di grounding (ad esempio, VideoChat, Video-ChatGPT, Video-LLaMA) o non utilizzano i segnali audio per una migliore comprensione del video (ad esempio, Video-ChatGPT). Per colmare queste lacune, proponiamo Video-LLaVA, il primo LMM con capacità di grounding a livello di pixel, che integra gli indizi audio trascrivendoli in testo per arricchire la comprensione del contesto video. Il nostro framework utilizza un tracker preesistente e un nuovo modulo di grounding, consentendogli di localizzare oggetti nei video sia spazialmente che temporalmente seguendo le istruzioni dell'utente. Valutiamo Video-LLaVA utilizzando benchmark generativi e di risposta alle domande basati su video e introduciamo nuovi benchmark specificamente progettati per misurare le prestazioni di grounding degli oggetti nei video basati su prompt. Inoltre, proponiamo l'uso di Vicuna rispetto a GPT-3.5, utilizzato in Video-ChatGPT, per il benchmarking delle conversazioni basate su video, garantendo la riproducibilità dei risultati, che è un problema a causa della natura proprietaria di GPT-3.5. Il nostro framework si basa sul modello LLaVA basato su immagini SoTA e ne estende i vantaggi al dominio video, ottenendo promettenti miglioramenti nelle attività di conversazione e grounding basate su video. Pagina del progetto: https://github.com/mbzuai-oryx/Video-LLaVA

English

Extending image-based Large Multimodal Models (LMM) to videos is challenging due to the inherent complexity of video data. The recent approaches extending image-based LMM to videos either lack the grounding capabilities (e.g., VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we propose Video-LLaVA, the first LMM with pixel-level grounding capability, integrating audio cues by transcribing them into text to enrich video-context understanding. Our framework uses an off-the-shelf tracker and a novel grounding module, enabling it to spatially and temporally localize objects in videos following user instructions. We evaluate Video-LLaVA using video-based generative and question-answering benchmarks and introduce new benchmarks specifically designed to measure prompt-based object grounding performance in videos. Further, we propose the use of Vicuna over GPT-3.5, as utilized in Video-ChatGPT, for video-based conversation benchmarking, ensuring reproducibility of results which is a concern with the proprietary nature of GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its advantages to the video domain, delivering promising gains on video-based conversation and grounding tasks. Project Page: https://github.com/mbzuai-oryx/Video-LLaVA

PG-Video-LLaVA: Modelli Linguistico-Visuali su Grande Scala con Ancoraggio Pixel per Video

PG-Video-LLaVA: Pixel Grounding Large Video-Language Models

Abstract

Support