ChatPaper.aiChatPaper

Video ReCap: Рекурсивное создание описаний для часовых видеозаписей

Video ReCap: Recursive Captioning of Hour-Long Videos

February 20, 2024
Авторы: Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius
cs.AI

Аннотация

Большинство моделей для создания видеоподписей предназначены для обработки коротких видеоклипов длительностью в несколько секунд и вывода текста, описывающего базовые визуальные концепции (например, объекты, сцены, элементарные действия). Однако большинство реальных видео длятся минуты или часы и имеют сложную иерархическую структуру, охватывающую различные временные гранулярности. Мы предлагаем Video ReCap — рекурсивную модель для создания видеоподписей, которая способна обрабатывать видео входных данных с существенно разной длительностью (от 1 секунды до 2 часов) и выводить видеоподписи на нескольких уровнях иерархии. Рекурсивная архитектура, объединяющая видео и язык, использует синергию между различными уровнями иерархии видео и позволяет эффективно обрабатывать часовые видео. Мы применяем схему обучения с использованием учебного плана для изучения иерархической структуры видео, начиная с подписей на уровне клипов, описывающих элементарные действия, затем переходя к описаниям на уровне сегментов и завершая генерацией сводок для часовых видео. Кроме того, мы представляем набор данных Ego4D-HCap, расширяя Ego4D 8 267 вручную собранными сводками для длинных видео. Наша рекурсивная модель может гибко генерировать подписи на разных уровнях иерархии, а также быть полезной для других сложных задач понимания видео, таких как VideoQA на EgoSchema. Данные, код и модели доступны по адресу: https://sites.google.com/view/vidrecap.
English
Most video captioning models are designed to process short video clips of few seconds and output text describing low-level visual concepts (e.g., objects, scenes, atomic actions). However, most real-world videos last for minutes or hours and have a complex hierarchical structure spanning different temporal granularities. We propose Video ReCap, a recursive video captioning model that can process video inputs of dramatically different lengths (from 1 second to 2 hours) and output video captions at multiple hierarchy levels. The recursive video-language architecture exploits the synergy between different video hierarchies and can process hour-long videos efficiently. We utilize a curriculum learning training scheme to learn the hierarchical structure of videos, starting from clip-level captions describing atomic actions, then focusing on segment-level descriptions, and concluding with generating summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by augmenting Ego4D with 8,267 manually collected long-range video summaries. Our recursive model can flexibly generate captions at different hierarchy levels while also being useful for other complex video understanding tasks, such as VideoQA on EgoSchema. Data, code, and models are available at: https://sites.google.com/view/vidrecap
PDF275December 15, 2024