ChatPaper.aiChatPaper

Chapter-Llama: Effiziente Kapitelbildung in stundenlangen Videos mit LLMs

Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs

March 31, 2025
Autoren: Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol
cs.AI

Zusammenfassung

Wir befassen uns mit der Aufgabe der Video-Kapitelung, d.h. der Unterteilung einer langen Videotimeline in semantische Einheiten und der Generierung entsprechender Kapitelüberschriften. Obwohl bisher relativ wenig erforscht, hat die automatische Kapitelung das Potenzial, eine effiziente Navigation und Inhaltsabfrage in langen Videos zu ermöglichen. In diesem Artikel erreichen wir eine starke Kapitelungsleistung bei stundenlangen Videos, indem wir das Problem effizient im Textbereich mit unserem 'Chapter-Llama'-Framework angehen. Konkret nutzen wir ein vortrainiertes großes Sprachmodell (LLM) mit einem großen Kontextfenster und geben als Eingabe (i) Sprachtranskripte und (ii) Beschreibungen von Videobildern zusammen mit ihren jeweiligen Zeitstempeln ein. Angesichts der Ineffizienz, alle Bilder erschöpfend zu beschriften, schlagen wir eine leichtgewichtige, sprachgesteuerte Bildauswahlstrategie basierend auf dem Inhalt der Sprachtranskripte vor und zeigen experimentell bemerkenswerte Vorteile. Wir trainieren das LLM, Zeitstempel für die Kapitelgrenzen sowie freiformulierte Kapitelüberschriften auszugeben. Dieser einfache, aber leistungsstarke Ansatz skaliert auf die Verarbeitung einstündiger Videos in einem einzigen Vorwärtsdurchlauf. Unsere Ergebnisse zeigen erhebliche Verbesserungen (z.B. 45,3 vs. 26,7 F1-Score) gegenüber dem Stand der Technik auf dem kürzlich veröffentlichten VidChapters-7M-Benchmark. Um die weitere Forschung zu fördern, veröffentlichen wir unseren Code und unsere Modelle auf unserer Projektseite.
English
We address the task of video chaptering, i.e., partitioning a long video timeline into semantic units and generating corresponding chapter titles. While relatively underexplored, automatic chaptering has the potential to enable efficient navigation and content retrieval in long-form videos. In this paper, we achieve strong chaptering performance on hour-long videos by efficiently addressing the problem in the text domain with our 'Chapter-Llama' framework. Specifically, we leverage a pretrained large language model (LLM) with large context window, and feed as input (i) speech transcripts and (ii) captions describing video frames, along with their respective timestamps. Given the inefficiency of exhaustively captioning all frames, we propose a lightweight speech-guided frame selection strategy based on speech transcript content, and experimentally demonstrate remarkable advantages. We train the LLM to output timestamps for the chapter boundaries, as well as free-form chapter titles. This simple yet powerful approach scales to processing one-hour long videos in a single forward pass. Our results demonstrate substantial improvements (e.g., 45.3 vs 26.7 F1 score) over the state of the art on the recent VidChapters-7M benchmark. To promote further research, we release our code and models at our project page.

Summary

AI-Generated Summary

PDF72April 2, 2025