PG-Video-LLaVA: Modelos de Grande Escala para Vídeo e Linguagem com Ancoragem em Pixels
PG-Video-LLaVA: Pixel Grounding Large Video-Language Models
November 22, 2023
Autores: Shehan Munasinghe, Rusiru Thushara, Muhammad Maaz, Hanoona Abdul Rasheed, Salman Khan, Mubarak Shah, Fahad Khan
cs.AI
Resumo
A extensão de modelos multimodais grandes (LMM) baseados em imagens para vídeos é desafiadora devido à complexidade inerente dos dados de vídeo. As abordagens recentes que estendem LMMs baseados em imagens para vídeos ou carecem de capacidades de ancoragem (por exemplo, VideoChat, Video-ChatGPT, Video-LLaMA) ou não utilizam sinais de áudio para uma melhor compreensão do vídeo (por exemplo, Video-ChatGPT). Para abordar essas lacunas, propomos o Video-LLaVA, o primeiro LMM com capacidade de ancoragem em nível de pixel, integrando pistas de áudio ao transcrevê-las em texto para enriquecer a compreensão do contexto do vídeo. Nosso framework utiliza um rastreador pronto para uso e um novo módulo de ancoragem, permitindo localizar objetos espacial e temporalmente em vídeos seguindo instruções do usuário. Avaliamos o Video-LLaVA usando benchmarks de geração e questionamento baseados em vídeo e introduzimos novos benchmarks especificamente projetados para medir o desempenho de ancoragem de objetos em vídeos com base em prompts. Além disso, propomos o uso do Vicuna em vez do GPT-3.5, como utilizado no Video-ChatGPT, para benchmarking de conversas baseadas em vídeo, garantindo a reprodutibilidade dos resultados, o que é uma preocupação devido à natureza proprietária do GPT-3.5. Nosso framework se baseia no modelo LLaVA baseado em imagens SoTA e estende suas vantagens para o domínio de vídeo, oferecendo ganhos promissores em tarefas de conversação e ancoragem baseadas em vídeo. Página do Projeto: https://github.com/mbzuai-oryx/Video-LLaVA
English
Extending image-based Large Multimodal Models (LMM) to videos is challenging
due to the inherent complexity of video data. The recent approaches extending
image-based LMM to videos either lack the grounding capabilities (e.g.,
VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for
better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we
propose Video-LLaVA, the first LMM with pixel-level grounding capability,
integrating audio cues by transcribing them into text to enrich video-context
understanding. Our framework uses an off-the-shelf tracker and a novel
grounding module, enabling it to spatially and temporally localize objects in
videos following user instructions. We evaluate Video-LLaVA using video-based
generative and question-answering benchmarks and introduce new benchmarks
specifically designed to measure prompt-based object grounding performance in
videos. Further, we propose the use of Vicuna over GPT-3.5, as utilized in
Video-ChatGPT, for video-based conversation benchmarking, ensuring
reproducibility of results which is a concern with the proprietary nature of
GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its
advantages to the video domain, delivering promising gains on video-based
conversation and grounding tasks. Project Page:
https://github.com/mbzuai-oryx/Video-LLaVA