Chapter-Llama: Efficiënte hoofdstukindeling in uur-lange video's met LLM's
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs
March 31, 2025
Auteurs: Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol
cs.AI
Samenvatting
We behandelen de taak van video-hoofdstukindeling, d.w.z. het verdelen van een lange videotijdlijn in semantische eenheden en het genereren van bijbehorende hoofdstuktitels. Hoewel automatische hoofdstukindeling relatief onderbelicht is, heeft het het potentieel om efficiënte navigatie en inhoudsopzoekbaarheid in lange video's mogelijk te maken. In dit artikel behalen we sterke prestaties op het gebied van hoofdstukindeling voor video's van een uur door het probleem efficiënt aan te pakken in het tekstdomein met ons 'Chapter-Llama'-framework. Specifiek maken we gebruik van een vooraf getraind groot taalmodel (LLM) met een groot contextvenster, en voeren we als invoer (i) spraaktranscripten en (ii) bijschriften die videoframes beschrijven, samen met hun respectievelijke tijdstempels. Gezien de inefficiëntie van het uitputtend voorzien van bijschriften voor alle frames, stellen we een lichtgewicht spraakgestuurde frameselectiestrategie voor op basis van de inhoud van spraaktranscripten, en tonen we experimenteel aanmerkelijke voordelen aan. We trainen het LLM om tijdstempels voor de hoofdstukgrenzen uit te voeren, evenals vrij vormgegeven hoofdstuktitels. Deze eenvoudige maar krachtige aanpak schaalt naar het verwerken van video's van een uur in één enkele voorwaartse doorloop. Onze resultaten laten aanzienlijke verbeteringen zien (bijv. 45,3 vs 26,7 F1-score) ten opzichte van de state-of-the-art op de recente VidChapters-7M-benchmark. Om verder onderzoek te bevorderen, maken we onze code en modellen beschikbaar op onze projectpagina.
English
We address the task of video chaptering, i.e., partitioning a long video
timeline into semantic units and generating corresponding chapter titles. While
relatively underexplored, automatic chaptering has the potential to enable
efficient navigation and content retrieval in long-form videos. In this paper,
we achieve strong chaptering performance on hour-long videos by efficiently
addressing the problem in the text domain with our 'Chapter-Llama' framework.
Specifically, we leverage a pretrained large language model (LLM) with large
context window, and feed as input (i) speech transcripts and (ii) captions
describing video frames, along with their respective timestamps. Given the
inefficiency of exhaustively captioning all frames, we propose a lightweight
speech-guided frame selection strategy based on speech transcript content, and
experimentally demonstrate remarkable advantages. We train the LLM to output
timestamps for the chapter boundaries, as well as free-form chapter titles.
This simple yet powerful approach scales to processing one-hour long videos in
a single forward pass. Our results demonstrate substantial improvements (e.g.,
45.3 vs 26.7 F1 score) over the state of the art on the recent VidChapters-7M
benchmark. To promote further research, we release our code and models at our
project page.Summary
AI-Generated Summary