LLM4VG : Évaluation des grands modèles de langage pour l'ancrage vidéo
LLM4VG: Large Language Models Evaluation for Video Grounding
December 21, 2023
papers.authors: Wei Feng, Xin Wang, Hong Chen, Zeyang Zhang, Zihan Song, Yuwei Zhou, Wenwu Zhu
cs.AI
papers.abstract
Récemment, les chercheurs ont tenté d'explorer la capacité des LLM (modèles de langage de grande taille) à traiter des vidéos et ont proposé plusieurs modèles de LLM vidéo. Cependant, la capacité des LLM à gérer le grounding vidéo (VG), une tâche temporelle importante qui nécessite que le modèle localise avec précision les timestamps de début et de fin des moments temporels dans les vidéos correspondant aux requêtes textuelles données, reste encore floue et inexplorée dans la littérature. Pour combler cette lacune, nous proposons dans cet article le benchmark LLM4VG, qui évalue systématiquement les performances de différents LLM sur les tâches de grounding vidéo. Sur la base de notre proposition LLM4VG, nous concevons des expériences approfondies pour examiner deux groupes de modèles LLM vidéo sur le grounding vidéo : (i) les LLM vidéo entraînés sur des paires texte-vidéo (notés VidLLM), et (ii) les LLM combinés avec des modèles de description visuelle pré-entraînés, tels que les modèles de légendage vidéo/image. Nous proposons des méthodes de prompt pour intégrer l'instruction de VG et la description provenant de différents types de générateurs, y compris les générateurs basés sur le légendage pour la description visuelle directe et les générateurs basés sur les QVA (Question-Answering visuel) pour l'amélioration de l'information. Nous fournissons également des comparaisons complètes de divers VidLLM et explorons l'influence des différents choix de modèles visuels, LLM, conceptions de prompts, etc. Nos évaluations expérimentales conduisent à deux conclusions : (i) les VidLLM existants sont encore loin d'atteindre des performances satisfaisantes en matière de grounding vidéo, et davantage de tâches vidéo temporelles devraient être incluses pour affiner ces modèles, et (ii) la combinaison des LLM et des modèles visuels montre des capacités préliminaires pour le grounding vidéo avec un potentiel considérable d'amélioration en recourant à des modèles plus fiables et à une meilleure guidance des instructions de prompts.
English
Recently, researchers have attempted to investigate the capability of LLMs in
handling videos and proposed several video LLM models. However, the ability of
LLMs to handle video grounding (VG), which is an important time-related video
task requiring the model to precisely locate the start and end timestamps of
temporal moments in videos that match the given textual queries, still remains
unclear and unexplored in literature. To fill the gap, in this paper, we
propose the LLM4VG benchmark, which systematically evaluates the performance of
different LLMs on video grounding tasks. Based on our proposed LLM4VG, we
design extensive experiments to examine two groups of video LLM models on video
grounding: (i) the video LLMs trained on the text-video pairs (denoted as
VidLLM), and (ii) the LLMs combined with pretrained visual description models
such as the video/image captioning model. We propose prompt methods to
integrate the instruction of VG and description from different kinds of
generators, including caption-based generators for direct visual description
and VQA-based generators for information enhancement. We also provide
comprehensive comparisons of various VidLLMs and explore the influence of
different choices of visual models, LLMs, prompt designs, etc, as well. Our
experimental evaluations lead to two conclusions: (i) the existing VidLLMs are
still far away from achieving satisfactory video grounding performance, and
more time-related video tasks should be included to further fine-tune these
models, and (ii) the combination of LLMs and visual models shows preliminary
abilities for video grounding with considerable potential for improvement by
resorting to more reliable models and further guidance of prompt instructions.