Chapter-Llama: Эффективное разделение на главы в часовых видео с использованием языковых моделей
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs
March 31, 2025
Авторы: Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol
cs.AI
Аннотация
Мы решаем задачу разбиения видео на главы, то есть разделения длинного видео на смысловые части и генерации соответствующих заголовков глав. Хотя автоматическое разбиение на главы изучено недостаточно, оно имеет потенциал для эффективной навигации и поиска контента в длинных видео. В данной статье мы достигаем высоких результатов в разбиении на главы для часовых видео, эффективно решая задачу в текстовой области с помощью нашей системы 'Chapter-Llama'. В частности, мы используем предобученную крупную языковую модель (LLM) с большим контекстным окном и подаем на вход (i) транскрипты речи и (ii) описания кадров видео вместе с соответствующими временными метками. Учитывая неэффективность полного описания всех кадров, мы предлагаем легковесную стратегию выбора кадров, основанную на содержании транскриптов речи, и экспериментально демонстрируем её значительные преимущества. Мы обучаем LLM выводить временные метки для границ глав, а также свободные заголовки глав. Этот простой, но мощный подход позволяет обрабатывать часовые видео за один прямой проход. Наши результаты показывают существенные улучшения (например, 45.3 против 26.7 по F1-метрике) по сравнению с современными методами на новом бенчмарке VidChapters-7M. Для содействия дальнейшим исследованиям мы публикуем наш код и модели на странице проекта.
English
We address the task of video chaptering, i.e., partitioning a long video
timeline into semantic units and generating corresponding chapter titles. While
relatively underexplored, automatic chaptering has the potential to enable
efficient navigation and content retrieval in long-form videos. In this paper,
we achieve strong chaptering performance on hour-long videos by efficiently
addressing the problem in the text domain with our 'Chapter-Llama' framework.
Specifically, we leverage a pretrained large language model (LLM) with large
context window, and feed as input (i) speech transcripts and (ii) captions
describing video frames, along with their respective timestamps. Given the
inefficiency of exhaustively captioning all frames, we propose a lightweight
speech-guided frame selection strategy based on speech transcript content, and
experimentally demonstrate remarkable advantages. We train the LLM to output
timestamps for the chapter boundaries, as well as free-form chapter titles.
This simple yet powerful approach scales to processing one-hour long videos in
a single forward pass. Our results demonstrate substantial improvements (e.g.,
45.3 vs 26.7 F1 score) over the state of the art on the recent VidChapters-7M
benchmark. To promote further research, we release our code and models at our
project page.Summary
AI-Generated Summary