ChatPaper.aiChatPaper

Video ReCap: 시간 단위 영상의 재귀적 캡셔닝

Video ReCap: Recursive Captioning of Hour-Long Videos

February 20, 2024
저자: Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius
cs.AI

초록

대부분의 비디오 캡셔닝 모델은 몇 초 길이의 짧은 비디오 클립을 처리하고, 객체, 장면, 단순 동작과 같은 저수준 시각적 개념을 설명하는 텍스트를 출력하도록 설계되었습니다. 그러나 실제 세계의 비디오는 대부분 수분에서 수 시간에 걸쳐 있으며, 다양한 시간적 세분화 수준에 걸친 복잡한 계층적 구조를 가지고 있습니다. 우리는 1초부터 2시간까지 극적으로 다른 길이의 비디오 입력을 처리하고 여러 계층 수준에서 비디오 캡션을 출력할 수 있는 재귀적 비디오 캡셔닝 모델인 Video ReCap을 제안합니다. 이 재귀적 비디오-언어 아키텍처는 다양한 비디오 계층 간의 시너지를 활용하며, 시간 단위의 긴 비디오를 효율적으로 처리할 수 있습니다. 우리는 비디오의 계층적 구조를 학습하기 위해 커리큘럼 학습 방식을 사용하여, 단순 동작을 설명하는 클립 수준의 캡션에서 시작해 세그먼트 수준의 설명에 초점을 맞추고, 마지막으로 시간 단위의 비디오 요약을 생성하는 방식으로 학습을 진행합니다. 또한, Ego4D 데이터셋에 8,267개의 수동으로 수집된 장거리 비디오 요약을 추가하여 Ego4D-HCap 데이터셋을 소개합니다. 우리의 재귀 모델은 다양한 계층 수준에서 유연하게 캡션을 생성할 수 있을 뿐만 아니라, EgoSchema의 VideoQA와 같은 복잡한 비디오 이해 작업에도 유용합니다. 데이터, 코드, 모델은 https://sites.google.com/view/vidrecap에서 확인할 수 있습니다.
English
Most video captioning models are designed to process short video clips of few seconds and output text describing low-level visual concepts (e.g., objects, scenes, atomic actions). However, most real-world videos last for minutes or hours and have a complex hierarchical structure spanning different temporal granularities. We propose Video ReCap, a recursive video captioning model that can process video inputs of dramatically different lengths (from 1 second to 2 hours) and output video captions at multiple hierarchy levels. The recursive video-language architecture exploits the synergy between different video hierarchies and can process hour-long videos efficiently. We utilize a curriculum learning training scheme to learn the hierarchical structure of videos, starting from clip-level captions describing atomic actions, then focusing on segment-level descriptions, and concluding with generating summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by augmenting Ego4D with 8,267 manually collected long-range video summaries. Our recursive model can flexibly generate captions at different hierarchy levels while also being useful for other complex video understanding tasks, such as VideoQA on EgoSchema. Data, code, and models are available at: https://sites.google.com/view/vidrecap
PDF275December 15, 2024