ChatPaper.aiChatPaper

PG-Video-LLaVA:ピクセル接地型大規模ビデオ言語モデル

PG-Video-LLaVA: Pixel Grounding Large Video-Language Models

November 22, 2023
著者: Shehan Munasinghe, Rusiru Thushara, Muhammad Maaz, Hanoona Abdul Rasheed, Salman Khan, Mubarak Shah, Fahad Khan
cs.AI

要旨

画像ベースの大規模マルチモーダルモデル(LMM)を動画に拡張することは、動画データの本質的な複雑さから困難な課題です。既存の動画拡張手法(VideoChat、Video-ChatGPT、Video-LLaMAなど)は、グラウンディング機能を欠いているか、動画理解向上のための音声信号を活用していません(Video-ChatGPTなど)。こうした課題を解決するため、我々はピクセルレベルのグラウンディング機能を備え、音声手がかりをテキストに変換して動画コンテキスト理解を強化する初のLMMであるVideo-LLaVAを提案します。本フレームワークは市販のトラッカーと新規開発のグラウンディングモジュールを採用し、ユーザーの指示に従って動画内のオブジェクトを空間的・時間的に位置特定できるようにしました。動画ベースの生成タスクおよび質問応答ベンチマークを用いた評価に加え、動画におけるプロンプトベースのオブジェクトグラウンディング性能を測定する新規ベンチマークを導入しました。さらに、Video-ChatGPTで使用されているGPT-3.5の代替としてVicunaを採用し、プロプライエタリな性質を持つGPT-3.5の課題である結果の再現性を確保しました。本フレームワークは画像ベースの最先端LLaVAモデルを基盤とし、その優位性を動画領域に拡張することで、動画会話およびグラウンディングタスクにおいて有望な性能向上を実現しています。プロジェクトページ:https://github.com/mbzuai-oryx/Video-LLaVA
English
Extending image-based Large Multimodal Models (LMM) to videos is challenging due to the inherent complexity of video data. The recent approaches extending image-based LMM to videos either lack the grounding capabilities (e.g., VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we propose Video-LLaVA, the first LMM with pixel-level grounding capability, integrating audio cues by transcribing them into text to enrich video-context understanding. Our framework uses an off-the-shelf tracker and a novel grounding module, enabling it to spatially and temporally localize objects in videos following user instructions. We evaluate Video-LLaVA using video-based generative and question-answering benchmarks and introduce new benchmarks specifically designed to measure prompt-based object grounding performance in videos. Further, we propose the use of Vicuna over GPT-3.5, as utilized in Video-ChatGPT, for video-based conversation benchmarking, ensuring reproducibility of results which is a concern with the proprietary nature of GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its advantages to the video domain, delivering promising gains on video-based conversation and grounding tasks. Project Page: https://github.com/mbzuai-oryx/Video-LLaVA
PDF183February 8, 2026