Chapter-Llama: Segmentación Eficiente de Capítulos en Videos de una Hora con Modelos de Lenguaje de Gran Escala
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs
March 31, 2025
Autores: Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol
cs.AI
Resumen
Abordamos la tarea de segmentación de videos, es decir, dividir una línea de tiempo de video larga en unidades semánticas y generar títulos de capítulos correspondientes. Aunque relativamente poco explorada, la segmentación automática tiene el potencial de permitir una navegación y recuperación de contenido eficiente en videos de larga duración. En este artículo, logramos un rendimiento sólido en la segmentación de videos de una hora al abordar eficientemente el problema en el dominio del texto con nuestro marco 'Chapter-Llama'. Específicamente, aprovechamos un modelo de lenguaje grande (LLM) preentrenado con una ventana de contexto amplia, y proporcionamos como entrada (i) transcripciones de voz y (ii) subtítulos que describen los fotogramas del video, junto con sus respectivas marcas de tiempo. Dada la ineficiencia de subtitular exhaustivamente todos los fotogramas, proponemos una estrategia ligera de selección de fotogramas guiada por el contenido de la transcripción de voz, y demostramos experimentalmente ventajas notables. Entrenamos al LLM para generar marcas de tiempo para los límites de los capítulos, así como títulos de capítulos de forma libre. Este enfoque simple pero potente escala para procesar videos de una hora de duración en una sola pasada hacia adelante. Nuestros resultados muestran mejoras sustanciales (por ejemplo, 45.3 frente a 26.7 en puntuación F1) sobre el estado del arte en el reciente benchmark VidChapters-7M. Para promover más investigación, publicamos nuestro código y modelos en nuestra página del proyecto.
English
We address the task of video chaptering, i.e., partitioning a long video
timeline into semantic units and generating corresponding chapter titles. While
relatively underexplored, automatic chaptering has the potential to enable
efficient navigation and content retrieval in long-form videos. In this paper,
we achieve strong chaptering performance on hour-long videos by efficiently
addressing the problem in the text domain with our 'Chapter-Llama' framework.
Specifically, we leverage a pretrained large language model (LLM) with large
context window, and feed as input (i) speech transcripts and (ii) captions
describing video frames, along with their respective timestamps. Given the
inefficiency of exhaustively captioning all frames, we propose a lightweight
speech-guided frame selection strategy based on speech transcript content, and
experimentally demonstrate remarkable advantages. We train the LLM to output
timestamps for the chapter boundaries, as well as free-form chapter titles.
This simple yet powerful approach scales to processing one-hour long videos in
a single forward pass. Our results demonstrate substantial improvements (e.g.,
45.3 vs 26.7 F1 score) over the state of the art on the recent VidChapters-7M
benchmark. To promote further research, we release our code and models at our
project page.Summary
AI-Generated Summary