LLM4VG: Avaliação de Modelos de Linguagem de Grande Escala para Ancoragem em Vídeo
LLM4VG: Large Language Models Evaluation for Video Grounding
December 21, 2023
Autores: Wei Feng, Xin Wang, Hong Chen, Zeyang Zhang, Zihan Song, Yuwei Zhou, Wenwu Zhu
cs.AI
Resumo
Recentemente, pesquisadores têm tentado investigar a capacidade dos LLMs (Large Language Models) em lidar com vídeos e propuseram vários modelos de LLMs para vídeo. No entanto, a capacidade dos LLMs de lidar com o grounding de vídeo (VG), que é uma tarefa importante relacionada ao tempo que exige que o modelo localize com precisão os timestamps de início e fim de momentos temporais em vídeos que correspondem a consultas textuais fornecidas, ainda permanece pouco clara e inexplorada na literatura. Para preencher essa lacuna, neste artigo, propomos o benchmark LLM4VG, que avalia sistematicamente o desempenho de diferentes LLMs em tarefas de grounding de vídeo. Com base no nosso LLM4VG proposto, projetamos experimentos extensivos para examinar dois grupos de modelos de LLMs para vídeo no grounding de vídeo: (i) os LLMs para vídeo treinados em pares texto-vídeo (denominados VidLLM), e (ii) os LLMs combinados com modelos de descrição visual pré-treinados, como modelos de legendagem de vídeo/imagem. Propomos métodos de prompt para integrar a instrução de VG e a descrição de diferentes tipos de geradores, incluindo geradores baseados em legendas para descrição visual direta e geradores baseados em VQA (Question-Answering Visual) para aprimoramento de informações. Também fornecemos comparações abrangentes de vários VidLLMs e exploramos a influência de diferentes escolhas de modelos visuais, LLMs, designs de prompt, entre outros. Nossas avaliações experimentais levam a duas conclusões: (i) os VidLLMs existentes ainda estão longe de alcançar um desempenho satisfatório em grounding de vídeo, e mais tarefas relacionadas ao tempo em vídeo devem ser incluídas para ajustar ainda mais esses modelos, e (ii) a combinação de LLMs e modelos visuais mostra habilidades preliminares para grounding de vídeo com um potencial considerável de melhoria ao recorrer a modelos mais confiáveis e a uma orientação mais eficaz das instruções de prompt.
English
Recently, researchers have attempted to investigate the capability of LLMs in
handling videos and proposed several video LLM models. However, the ability of
LLMs to handle video grounding (VG), which is an important time-related video
task requiring the model to precisely locate the start and end timestamps of
temporal moments in videos that match the given textual queries, still remains
unclear and unexplored in literature. To fill the gap, in this paper, we
propose the LLM4VG benchmark, which systematically evaluates the performance of
different LLMs on video grounding tasks. Based on our proposed LLM4VG, we
design extensive experiments to examine two groups of video LLM models on video
grounding: (i) the video LLMs trained on the text-video pairs (denoted as
VidLLM), and (ii) the LLMs combined with pretrained visual description models
such as the video/image captioning model. We propose prompt methods to
integrate the instruction of VG and description from different kinds of
generators, including caption-based generators for direct visual description
and VQA-based generators for information enhancement. We also provide
comprehensive comparisons of various VidLLMs and explore the influence of
different choices of visual models, LLMs, prompt designs, etc, as well. Our
experimental evaluations lead to two conclusions: (i) the existing VidLLMs are
still far away from achieving satisfactory video grounding performance, and
more time-related video tasks should be included to further fine-tune these
models, and (ii) the combination of LLMs and visual models shows preliminary
abilities for video grounding with considerable potential for improvement by
resorting to more reliable models and further guidance of prompt instructions.