Video ReCap: Creazione Ricorsiva di Didascalie per Video della Durata di un'Ora

Abstract

La maggior parte dei modelli di descrizione video sono progettati per elaborare brevi clip video di pochi secondi e produrre testo che descrive concetti visivi di basso livello (ad esempio, oggetti, scene, azioni atomiche). Tuttavia, la maggior parte dei video del mondo reale dura minuti o ore e presenta una struttura gerarchica complessa che si estende su diverse granularità temporali. Proponiamo Video ReCap, un modello ricorsivo di descrizione video in grado di elaborare input video di lunghezze drasticamente diverse (da 1 secondo a 2 ore) e produrre descrizioni video a più livelli gerarchici. L'architettura ricorsiva video-linguistica sfrutta la sinergia tra le diverse gerarchie video e può elaborare video della durata di un'ora in modo efficiente. Utilizziamo uno schema di apprendimento curriculare per apprendere la struttura gerarchica dei video, partendo da descrizioni a livello di clip che descrivono azioni atomiche, per poi concentrarsi su descrizioni a livello di segmento e concludere con la generazione di riassunti per video della durata di un'ora. Inoltre, introduciamo il dataset Ego4D-HCap arricchendo Ego4D con 8.267 riassunti video a lungo raggio raccolti manualmente. Il nostro modello ricorsivo può generare in modo flessibile descrizioni a diversi livelli gerarchici, risultando utile anche per altre complesse attività di comprensione video, come VideoQA su EgoSchema. Dati, codice e modelli sono disponibili all'indirizzo: https://sites.google.com/view/vidrecap

English

Most video captioning models are designed to process short video clips of few seconds and output text describing low-level visual concepts (e.g., objects, scenes, atomic actions). However, most real-world videos last for minutes or hours and have a complex hierarchical structure spanning different temporal granularities. We propose Video ReCap, a recursive video captioning model that can process video inputs of dramatically different lengths (from 1 second to 2 hours) and output video captions at multiple hierarchy levels. The recursive video-language architecture exploits the synergy between different video hierarchies and can process hour-long videos efficiently. We utilize a curriculum learning training scheme to learn the hierarchical structure of videos, starting from clip-level captions describing atomic actions, then focusing on segment-level descriptions, and concluding with generating summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by augmenting Ego4D with 8,267 manually collected long-range video summaries. Our recursive model can flexibly generate captions at different hierarchy levels while also being useful for other complex video understanding tasks, such as VideoQA on EgoSchema. Data, code, and models are available at: https://sites.google.com/view/vidrecap

Video ReCap: Creazione Ricorsiva di Didascalie per Video della Durata di un'Ora

Video ReCap: Recursive Captioning of Hour-Long Videos

Abstract

Support