LLM4VG: Evaluación de Modelos de Lenguaje de Gran Escala para la Localización en Videos
LLM4VG: Large Language Models Evaluation for Video Grounding
December 21, 2023
Autores: Wei Feng, Xin Wang, Hong Chen, Zeyang Zhang, Zihan Song, Yuwei Zhou, Wenwu Zhu
cs.AI
Resumen
Recientemente, los investigadores han intentado explorar la capacidad de los LLM (Modelos de Lenguaje de Gran Escala) para manejar videos y han propuesto varios modelos de LLM para video. Sin embargo, la habilidad de los LLM para abordar el video grounding (VG), que es una tarea importante relacionada con el tiempo que requiere que el modelo localice con precisión los momentos temporales en los videos que coinciden con las consultas textuales dadas, aún permanece poco clara y sin explorar en la literatura. Para llenar este vacío, en este artículo proponemos el benchmark LLM4VG, que evalúa sistemáticamente el rendimiento de diferentes LLM en tareas de video grounding. Basándonos en nuestro LLM4VG, diseñamos experimentos exhaustivos para examinar dos grupos de modelos de LLM para video en video grounding: (i) los LLM para video entrenados con pares de texto-video (denominados VidLLM), y (ii) los LLM combinados con modelos preentrenados de descripción visual, como los modelos de subtitulado de video/imágenes. Proponemos métodos de prompt para integrar la instrucción de VG y la descripción de diferentes tipos de generadores, incluyendo generadores basados en subtítulos para la descripción visual directa y generadores basados en VQA para la mejora de la información. También proporcionamos comparaciones exhaustivas de varios VidLLM y exploramos la influencia de diferentes elecciones de modelos visuales, LLM, diseños de prompt, etc. Nuestras evaluaciones experimentales llevan a dos conclusiones: (i) los VidLLM existentes aún están lejos de alcanzar un rendimiento satisfactorio en video grounding, y se deberían incluir más tareas relacionadas con el tiempo para ajustar mejor estos modelos, y (ii) la combinación de LLM y modelos visuales muestra habilidades preliminares para video grounding con un potencial considerable de mejora al recurrir a modelos más confiables y una mayor orientación en las instrucciones de prompt.
English
Recently, researchers have attempted to investigate the capability of LLMs in
handling videos and proposed several video LLM models. However, the ability of
LLMs to handle video grounding (VG), which is an important time-related video
task requiring the model to precisely locate the start and end timestamps of
temporal moments in videos that match the given textual queries, still remains
unclear and unexplored in literature. To fill the gap, in this paper, we
propose the LLM4VG benchmark, which systematically evaluates the performance of
different LLMs on video grounding tasks. Based on our proposed LLM4VG, we
design extensive experiments to examine two groups of video LLM models on video
grounding: (i) the video LLMs trained on the text-video pairs (denoted as
VidLLM), and (ii) the LLMs combined with pretrained visual description models
such as the video/image captioning model. We propose prompt methods to
integrate the instruction of VG and description from different kinds of
generators, including caption-based generators for direct visual description
and VQA-based generators for information enhancement. We also provide
comprehensive comparisons of various VidLLMs and explore the influence of
different choices of visual models, LLMs, prompt designs, etc, as well. Our
experimental evaluations lead to two conclusions: (i) the existing VidLLMs are
still far away from achieving satisfactory video grounding performance, and
more time-related video tasks should be included to further fine-tune these
models, and (ii) the combination of LLMs and visual models shows preliminary
abilities for video grounding with considerable potential for improvement by
resorting to more reliable models and further guidance of prompt instructions.