ChatPaper.aiChatPaper

ViSMaP: Необученное суммаризация часовых видео с помощью мета-подсказок

ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting

April 22, 2025
Авторы: Jian Hu, Dimitrios Korkinof, Shaogang Gong, Mariano Beguerisse-Diaz
cs.AI

Аннотация

Мы представляем ViSMap: Unsupervised Video Summarisation by Meta Prompting — систему для автоматического суммирования часовых видеозаписей без использования обучения с учителем. Большинство существующих моделей для понимания видео хорошо работают с короткими роликами, содержащими заранее сегментированные события, однако они испытывают трудности при суммировании длинных видео, где релевантные события распределены редко и не сегментированы заранее. Кроме того, понимание длинных видео часто требует контролируемого иерархического обучения, которое предполагает наличие обширных аннотаций, что дорого, медленно и подвержено несоответствиям. С помощью ViSMaP мы устраняем разрыв между короткими видео (где аннотированных данных много) и длинными (где их недостаточно). Мы используем крупные языковые модели (LLM) для создания оптимизированных псевдо-суммаризаций длинных видео на основе описаний сегментов из коротких. Эти псевдо-суммаризации используются как обучающие данные для модели, которая генерирует суммаризации длинных видео, избегая необходимости в дорогостоящих аннотациях. В частности, мы применяем стратегию мета-промптинга для итеративной генерации и уточнения псевдо-суммаризаций длинных видео. Эта стратегия использует описания коротких клипов, полученные из контролируемой модели для коротких видео, чтобы направлять процесс суммаризации. Каждая итерация включает три LLM, работающие последовательно: одна генерирует псевдо-суммаризацию на основе описаний клипов, другая оценивает её, а третья оптимизирует промпт для генератора. Эта итерация необходима, поскольку качество псевдо-суммаризаций сильно зависит от промпта генератора и значительно варьируется между видео. Мы проводим обширную оценку наших суммаризаций на нескольких наборах данных; результаты показывают, что ViSMaP достигает производительности, сопоставимой с полностью контролируемыми современными моделями, при этом демонстрируя обобщаемость между доменами без потери качества. Код будет опубликован после выхода статьи.
English
We introduce ViSMap: Unsupervised Video Summarisation by Meta Prompting, a system to summarise hour long videos with no-supervision. Most existing video understanding models work well on short videos of pre-segmented events, yet they struggle to summarise longer videos where relevant events are sparsely distributed and not pre-segmented. Moreover, long-form video understanding often relies on supervised hierarchical training that needs extensive annotations which are costly, slow and prone to inconsistency. With ViSMaP we bridge the gap between short videos (where annotated data is plentiful) and long ones (where it's not). We rely on LLMs to create optimised pseudo-summaries of long videos using segment descriptions from short ones. These pseudo-summaries are used as training data for a model that generates long-form video summaries, bypassing the need for expensive annotations of long videos. Specifically, we adopt a meta-prompting strategy to iteratively generate and refine creating pseudo-summaries of long videos. The strategy leverages short clip descriptions obtained from a supervised short video model to guide the summary. Each iteration uses three LLMs working in sequence: one to generate the pseudo-summary from clip descriptions, another to evaluate it, and a third to optimise the prompt of the generator. This iteration is necessary because the quality of the pseudo-summaries is highly dependent on the generator prompt, and varies widely among videos. We evaluate our summaries extensively on multiple datasets; our results show that ViSMaP achieves performance comparable to fully supervised state-of-the-art models while generalising across domains without sacrificing performance. Code will be released upon publication.

Summary

AI-Generated Summary

PDF72April 25, 2025