CoS: Цепочка-выстрелов для понимания длинных видео
CoS: Chain-of-Shot Prompting for Long Video Understanding
February 10, 2025
Авторы: Jian Hu, Zixu Cheng, Chenyang Si, Wei Li, Shaogang Gong
cs.AI
Аннотация
Многомодельные модели больших языков (MLLM) испытывают трудности с длинными видео из-за необходимости большого количества визуальных токенов. Эти токены значительно превышают длину контекста MLLM, что приводит к заполнению избыточными задачно-нерелевантными кадрами. Проблема выбора кадров остается нерешенной и критической: разреженная выборка может упустить ключевые детали, в то время как исчерпывающая выборка перегружает модель нерелевантным контентом, что приводит к непониманию видео. Для решения этой проблемы мы предлагаем метод "Цепочка подсказок кадров" (CoS). Основная идея заключается в том, чтобы представить выбор кадров как оптимизацию визуальной подсказки во время тестирования, выбирая кадры, адаптированные к семантической задаче понимания видео путем оптимизации соответствия между кадрами и задачей. CoS состоит из двух ключевых частей: (1) механизм бинарного видеорезюме, выполняющий псевдо-временное привязывание, обнаруживающий бинарное кодирование для идентификации задачно-релевантных кадров, и (2) модуль видео-совместного рассуждения, который использует бинарное кодирование для сопоставления (обучения выравниванию) задачно-релевантных положительных кадров с нерелевантными отрицательными кадрами. Он встраивает оптимизированный выбор кадров в исходное видео, обеспечивая фокус на соответствующем контексте для оптимизации понимания длинного видео. Эксперименты на трех базовых уровнях и пяти наборах данных демонстрируют эффективность и адаптивность CoS. Код предоставлен по ссылке https://lwpyh.github.io/CoS.
English
Multi-modal Large Language Models (MLLMs) struggle with long videos due to
the need for excessive visual tokens. These tokens exceed massively the context
length of MLLMs, resulting in filled by redundant task-irrelevant shots. How to
select shots is an unsolved critical problem: sparse sampling risks missing key
details, while exhaustive sampling overwhelms the model with irrelevant
content, leading to video misunderstanding. To solve this problem, we propose
Chain-of-Shot prompting (CoS). The key idea is to frame shot selection as
test-time visual prompt optimisation, choosing shots adaptive to video
understanding semantic task by optimising shots-task alignment. CoS has two key
parts: (1) a binary video summary mechanism that performs pseudo temporal
grounding, discovering a binary coding to identify task-relevant shots, and (2)
a video co-reasoning module that deploys the binary coding to pair (learning to
align) task-relevant positive shots with irrelevant negative shots. It embeds
the optimised shot selections into the original video, facilitating a focus on
relevant context to optimize long video understanding. Experiments across three
baselines and five datasets demonstrate the effectiveness and adaptability of
CoS. Code given in https://lwpyh.github.io/CoS.Summary
AI-Generated Summary