LLM4VG : Évaluation des grands modèles de langage pour l'ancrage vidéo

papers.abstract

Récemment, les chercheurs ont tenté d'explorer la capacité des LLM (modèles de langage de grande taille) à traiter des vidéos et ont proposé plusieurs modèles de LLM vidéo. Cependant, la capacité des LLM à gérer le grounding vidéo (VG), une tâche temporelle importante qui nécessite que le modèle localise avec précision les timestamps de début et de fin des moments temporels dans les vidéos correspondant aux requêtes textuelles données, reste encore floue et inexplorée dans la littérature. Pour combler cette lacune, nous proposons dans cet article le benchmark LLM4VG, qui évalue systématiquement les performances de différents LLM sur les tâches de grounding vidéo. Sur la base de notre proposition LLM4VG, nous concevons des expériences approfondies pour examiner deux groupes de modèles LLM vidéo sur le grounding vidéo : (i) les LLM vidéo entraînés sur des paires texte-vidéo (notés VidLLM), et (ii) les LLM combinés avec des modèles de description visuelle pré-entraînés, tels que les modèles de légendage vidéo/image. Nous proposons des méthodes de prompt pour intégrer l'instruction de VG et la description provenant de différents types de générateurs, y compris les générateurs basés sur le légendage pour la description visuelle directe et les générateurs basés sur les QVA (Question-Answering visuel) pour l'amélioration de l'information. Nous fournissons également des comparaisons complètes de divers VidLLM et explorons l'influence des différents choix de modèles visuels, LLM, conceptions de prompts, etc. Nos évaluations expérimentales conduisent à deux conclusions : (i) les VidLLM existants sont encore loin d'atteindre des performances satisfaisantes en matière de grounding vidéo, et davantage de tâches vidéo temporelles devraient être incluses pour affiner ces modèles, et (ii) la combinaison des LLM et des modèles visuels montre des capacités préliminaires pour le grounding vidéo avec un potentiel considérable d'amélioration en recourant à des modèles plus fiables et à une meilleure guidance des instructions de prompts.

English

Recently, researchers have attempted to investigate the capability of LLMs in handling videos and proposed several video LLM models. However, the ability of LLMs to handle video grounding (VG), which is an important time-related video task requiring the model to precisely locate the start and end timestamps of temporal moments in videos that match the given textual queries, still remains unclear and unexplored in literature. To fill the gap, in this paper, we propose the LLM4VG benchmark, which systematically evaluates the performance of different LLMs on video grounding tasks. Based on our proposed LLM4VG, we design extensive experiments to examine two groups of video LLM models on video grounding: (i) the video LLMs trained on the text-video pairs (denoted as VidLLM), and (ii) the LLMs combined with pretrained visual description models such as the video/image captioning model. We propose prompt methods to integrate the instruction of VG and description from different kinds of generators, including caption-based generators for direct visual description and VQA-based generators for information enhancement. We also provide comprehensive comparisons of various VidLLMs and explore the influence of different choices of visual models, LLMs, prompt designs, etc, as well. Our experimental evaluations lead to two conclusions: (i) the existing VidLLMs are still far away from achieving satisfactory video grounding performance, and more time-related video tasks should be included to further fine-tune these models, and (ii) the combination of LLMs and visual models shows preliminary abilities for video grounding with considerable potential for improvement by resorting to more reliable models and further guidance of prompt instructions.

LLM4VG : Évaluation des grands modèles de langage pour l'ancrage vidéo

LLM4VG: Large Language Models Evaluation for Video Grounding

papers.abstract

Support