ChatPaper.aiChatPaper

Chapter-Llama : Segmentation efficace de chapitres dans des vidéos d'une heure grâce aux LLM

Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs

March 31, 2025
Auteurs: Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol
cs.AI

Résumé

Nous abordons la tâche de chapitrage vidéo, c'est-à-dire la partition d'une longue vidéo en unités sémantiques et la génération de titres de chapitres correspondants. Bien que relativement peu exploré, le chapitrage automatique a le potentiel de permettre une navigation et une récupération de contenu efficaces dans les vidéos de longue durée. Dans cet article, nous obtenons de solides performances de chapitrage sur des vidéos d'une heure en traitant efficacement le problème dans le domaine textuel grâce à notre framework 'Chapter-Llama'. Plus précisément, nous exploitons un modèle de langage pré-entraîné (LLM) avec une grande fenêtre contextuelle, et fournissons en entrée (i) les transcriptions de parole et (ii) les légendes décrivant les images vidéo, ainsi que leurs horodatages respectifs. Étant donné l'inefficacité de légender exhaustivement toutes les images, nous proposons une stratégie légère de sélection d'images guidée par la parole basée sur le contenu des transcriptions, et démontrons expérimentalement des avantages remarquables. Nous entraînons le LLM à produire les horodatages des limites des chapitres, ainsi que des titres de chapitres libres. Cette approche simple mais puissante permet de traiter des vidéos d'une heure en une seule passe avant. Nos résultats montrent des améliorations substantielles (par exemple, un score F1 de 45,3 contre 26,7) par rapport à l'état de l'art sur le récent benchmark VidChapters-7M. Pour promouvoir la recherche, nous publions notre code et nos modèles sur notre page de projet.
English
We address the task of video chaptering, i.e., partitioning a long video timeline into semantic units and generating corresponding chapter titles. While relatively underexplored, automatic chaptering has the potential to enable efficient navigation and content retrieval in long-form videos. In this paper, we achieve strong chaptering performance on hour-long videos by efficiently addressing the problem in the text domain with our 'Chapter-Llama' framework. Specifically, we leverage a pretrained large language model (LLM) with large context window, and feed as input (i) speech transcripts and (ii) captions describing video frames, along with their respective timestamps. Given the inefficiency of exhaustively captioning all frames, we propose a lightweight speech-guided frame selection strategy based on speech transcript content, and experimentally demonstrate remarkable advantages. We train the LLM to output timestamps for the chapter boundaries, as well as free-form chapter titles. This simple yet powerful approach scales to processing one-hour long videos in a single forward pass. Our results demonstrate substantial improvements (e.g., 45.3 vs 26.7 F1 score) over the state of the art on the recent VidChapters-7M benchmark. To promote further research, we release our code and models at our project page.

Summary

AI-Generated Summary

PDF72April 2, 2025