LLM4VG: Оценка больших языковых моделей для локализации в видео
LLM4VG: Large Language Models Evaluation for Video Grounding
December 21, 2023
Авторы: Wei Feng, Xin Wang, Hong Chen, Zeyang Zhang, Zihan Song, Yuwei Zhou, Wenwu Zhu
cs.AI
Аннотация
Недавно исследователи предприняли попытки изучить способность крупных языковых моделей (LLM) обрабатывать видео и предложили несколько моделей видео-LLM. Однако способность LLM справляться с задачей видео-граундинга (VG), которая является важной временной задачей, требующей от модели точного определения начальных и конечных временных меток временных моментов в видео, соответствующих заданным текстовым запросам, до сих пор остается неясной и неисследованной в литературе. Чтобы заполнить этот пробел, в данной статье мы предлагаем бенчмарк LLM4VG, который систематически оценивает производительность различных LLM на задачах видео-граундинга. На основе предложенного LLM4VG мы разработали обширные эксперименты для изучения двух групп видео-LLM моделей на задачах видео-граундинга: (i) видео-LLM, обученные на парах текст-видео (обозначаемые как VidLLM), и (ii) LLM, объединенные с предварительно обученными моделями визуального описания, такими как модели генерации подписей к видео/изображениям. Мы предлагаем методы промптов для интеграции инструкций VG и описаний от различных типов генераторов, включая генераторы на основе подписей для прямого визуального описания и генераторы на основе вопросно-ответных систем (VQA) для усиления информации. Мы также предоставляем всесторонние сравнения различных VidLLM и исследуем влияние различных выборов визуальных моделей, LLM, дизайна промптов и других факторов. Наши экспериментальные оценки приводят к двум выводам: (i) существующие VidLLM все еще далеки от достижения удовлетворительной производительности в задачах видео-граундинга, и для дальнейшей тонкой настройки этих моделей следует включить больше временных видео-задач, и (ii) комбинация LLM и визуальных моделей демонстрирует предварительные способности для видео-граундинга с значительным потенциалом для улучшения за счет использования более надежных моделей и дальнейшего руководства с помощью промптов.
English
Recently, researchers have attempted to investigate the capability of LLMs in
handling videos and proposed several video LLM models. However, the ability of
LLMs to handle video grounding (VG), which is an important time-related video
task requiring the model to precisely locate the start and end timestamps of
temporal moments in videos that match the given textual queries, still remains
unclear and unexplored in literature. To fill the gap, in this paper, we
propose the LLM4VG benchmark, which systematically evaluates the performance of
different LLMs on video grounding tasks. Based on our proposed LLM4VG, we
design extensive experiments to examine two groups of video LLM models on video
grounding: (i) the video LLMs trained on the text-video pairs (denoted as
VidLLM), and (ii) the LLMs combined with pretrained visual description models
such as the video/image captioning model. We propose prompt methods to
integrate the instruction of VG and description from different kinds of
generators, including caption-based generators for direct visual description
and VQA-based generators for information enhancement. We also provide
comprehensive comparisons of various VidLLMs and explore the influence of
different choices of visual models, LLMs, prompt designs, etc, as well. Our
experimental evaluations lead to two conclusions: (i) the existing VidLLMs are
still far away from achieving satisfactory video grounding performance, and
more time-related video tasks should be included to further fine-tune these
models, and (ii) the combination of LLMs and visual models shows preliminary
abilities for video grounding with considerable potential for improvement by
resorting to more reliable models and further guidance of prompt instructions.