ChatPaper.aiChatPaper

대규모 사전 학습 기반 영상 설명 생성

Large-scale Pre-training for Grounded Video Caption Generation

March 13, 2025
저자: Evangelos Kazakos, Cordelia Schmid, Josef Sivic
cs.AI

초록

비디오 캡셔닝 및 객체 그라운딩을 위한 새로운 접근 방식을 제안합니다. 이 방식에서는 캡션 내 객체들이 시간적으로 밀집된 바운딩 박스를 통해 비디오에 정확히 위치를 잡습니다. 본 연구는 다음과 같은 기여를 합니다. 첫째, 개별 프레임에 걸쳐 바운딩 박스로 그라운딩된 캡션들을 시간적으로 밀집되고 일관된 바운딩 박스 주석으로 통합하는 대규모 자동 주석 방법을 제시합니다. 이 방법을 HowTo100M 데이터셋에 적용하여 HowToGround1M이라는 대규모 사전 학습 데이터셋을 구축했습니다. 또한 GROVE(Grounded Video Caption Generation) 모델을 소개하고, 이를 HowToGround1M 데이터셋으로 사전 학습시켰습니다. 둘째, 수동으로 주석 처리된 캡션과 밀집된 시공간적 바운딩 박스가 포함된 3500개의 비디오로 구성된 새로운 데이터셋인 iGround를 소개합니다. 이를 통해 이 어려운 문제에 대한 진전을 측정할 수 있을 뿐만 아니라, 소규모이지만 고품질의 데이터를 통해 모델을 미세 조정할 수 있습니다. 셋째, 제안된 iGround 데이터셋에서 여러 베이스라인과 비교했을 때 우리의 접근 방식이 최첨단 결과를 달성함을 보여줍니다. 또한 VidSTG 및 ActivityNet-Entities 데이터셋에서도 우수한 성능을 입증했습니다. 우리는 자동 주석 처리된 HowToGround1M 데이터셋을 사용한 사전 학습과 수동 주석 처리된 iGround 데이터셋을 통한 미세 조정의 중요성을 입증하는 광범위한 실험을 수행했으며, 모델의 주요 기술적 기여를 검증했습니다.
English
We propose a novel approach for captioning and object grounding in video, where the objects in the caption are grounded in the video via temporally dense bounding boxes. We introduce the following contributions. First, we present a large-scale automatic annotation method that aggregates captions grounded with bounding boxes across individual frames into temporally dense and consistent bounding box annotations. We apply this approach on the HowTo100M dataset to construct a large-scale pre-training dataset, named HowToGround1M. We also introduce a Grounded Video Caption Generation model, dubbed GROVE, and pre-train the model on HowToGround1M. Second, we introduce a new dataset, called iGround, of 3500 videos with manually annotated captions and dense spatio-temporally grounded bounding boxes. This allows us to measure progress on this challenging problem, as well as to fine-tune our model on this small-scale but high-quality data. Third, we demonstrate that our approach achieves state-of-the-art results on the proposed iGround dataset compared to a number of baselines, as well as on the VidSTG and ActivityNet-Entities datasets. We perform extensive ablations that demonstrate the importance of pre-training using our automatically annotated HowToGround1M dataset followed by fine-tuning on the manually annotated iGround dataset and validate the key technical contributions of our model.

Summary

AI-Generated Summary

PDF172March 17, 2025