Chapter-Llama: Segmentação Eficiente de Capítulos em Vídeos de Uma Hora com LLMs
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs
March 31, 2025
Autores: Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol
cs.AI
Resumo
Abordamos a tarefa de divisão de vídeos em capítulos, ou seja, a segmentação de uma linha do tempo de vídeo longo em unidades semânticas e a geração de títulos correspondentes para cada capítulo. Embora relativamente pouco explorada, a divisão automática de capítulos tem o potencial de permitir uma navegação e recuperação de conteúdo eficientes em vídeos de longa duração. Neste artigo, alcançamos um desempenho robusto na divisão de capítulos em vídeos de uma hora ao abordar o problema de forma eficiente no domínio textual com nosso framework 'Chapter-Llama'. Especificamente, utilizamos um modelo de linguagem de grande escala (LLM) pré-treinado com uma janela de contexto ampla, fornecendo como entrada (i) transcrições de fala e (ii) legendas que descrevem os quadros do vídeo, juntamente com seus respectivos carimbos de tempo. Dada a ineficiência de legendar exaustivamente todos os quadros, propomos uma estratégia leve de seleção de quadros guiada pela fala, baseada no conteúdo da transcrição, e demonstramos experimentalmente vantagens notáveis. Treinamos o LLM para gerar carimbos de tempo para os limites dos capítulos, bem como títulos de capítulos em formato livre. Essa abordagem simples, porém poderosa, escala para processar vídeos de uma hora em uma única passada. Nossos resultados demonstram melhorias substanciais (por exemplo, 45,3 vs 26,7 no F1-score) em relação ao estado da arte no recente benchmark VidChapters-7M. Para promover pesquisas futuras, disponibilizamos nosso código e modelos na página do projeto.
English
We address the task of video chaptering, i.e., partitioning a long video
timeline into semantic units and generating corresponding chapter titles. While
relatively underexplored, automatic chaptering has the potential to enable
efficient navigation and content retrieval in long-form videos. In this paper,
we achieve strong chaptering performance on hour-long videos by efficiently
addressing the problem in the text domain with our 'Chapter-Llama' framework.
Specifically, we leverage a pretrained large language model (LLM) with large
context window, and feed as input (i) speech transcripts and (ii) captions
describing video frames, along with their respective timestamps. Given the
inefficiency of exhaustively captioning all frames, we propose a lightweight
speech-guided frame selection strategy based on speech transcript content, and
experimentally demonstrate remarkable advantages. We train the LLM to output
timestamps for the chapter boundaries, as well as free-form chapter titles.
This simple yet powerful approach scales to processing one-hour long videos in
a single forward pass. Our results demonstrate substantial improvements (e.g.,
45.3 vs 26.7 F1 score) over the state of the art on the recent VidChapters-7M
benchmark. To promote further research, we release our code and models at our
project page.Summary
AI-Generated Summary