ChatPaper.aiChatPaper

大規模事前学習による接地型動画キャプション生成

Large-scale Pre-training for Grounded Video Caption Generation

March 13, 2025
著者: Evangelos Kazakos, Cordelia Schmid, Josef Sivic
cs.AI

要旨

我々は、ビデオのキャプション生成と物体グラウンディングのための新しいアプローチを提案する。このアプローチでは、キャプション内の物体が、時間的に密なバウンディングボックスを通じてビデオ内にグラウンドされる。以下の貢献を紹介する。まず、個々のフレームにグラウンドされたキャプションを集約し、時間的に密で一貫性のあるバウンディングボックス注釈を生成する大規模自動注釈手法を提示する。この手法をHowTo100Mデータセットに適用し、HowToGround1Mという大規模事前学習データセットを構築する。また、Grounded Video Caption Generationモデル(GROVE)を導入し、HowToGround1Mで事前学習を行う。次に、手動で注釈されたキャプションと密な時空間的バウンディングボックスを持つ3500本のビデオからなる新しいデータセットiGroundを紹介する。これにより、この難しい問題における進捗を測定し、小規模だが高品質なデータでモデルを微調整することが可能となる。さらに、提案されたiGroundデータセットにおいて、いくつかのベースラインと比較して最先端の結果を達成し、VidSTGおよびActivityNet-Entitiesデータセットでも同様の結果を示す。我々は、自動注釈されたHowToGround1Mデータセットを使用した事前学習と、手動注釈されたiGroundデータセットでの微調整の重要性を実証する広範なアブレーション実験を行い、モデルの主要な技術的貢献を検証する。
English
We propose a novel approach for captioning and object grounding in video, where the objects in the caption are grounded in the video via temporally dense bounding boxes. We introduce the following contributions. First, we present a large-scale automatic annotation method that aggregates captions grounded with bounding boxes across individual frames into temporally dense and consistent bounding box annotations. We apply this approach on the HowTo100M dataset to construct a large-scale pre-training dataset, named HowToGround1M. We also introduce a Grounded Video Caption Generation model, dubbed GROVE, and pre-train the model on HowToGround1M. Second, we introduce a new dataset, called iGround, of 3500 videos with manually annotated captions and dense spatio-temporally grounded bounding boxes. This allows us to measure progress on this challenging problem, as well as to fine-tune our model on this small-scale but high-quality data. Third, we demonstrate that our approach achieves state-of-the-art results on the proposed iGround dataset compared to a number of baselines, as well as on the VidSTG and ActivityNet-Entities datasets. We perform extensive ablations that demonstrate the importance of pre-training using our automatically annotated HowToGround1M dataset followed by fine-tuning on the manually annotated iGround dataset and validate the key technical contributions of our model.

Summary

AI-Generated Summary

PDF172March 17, 2025