ChatPaper.aiChatPaper

LLM4VG: Evaluatie van Large Language Models voor Video Grounding

LLM4VG: Large Language Models Evaluation for Video Grounding

December 21, 2023
Auteurs: Wei Feng, Xin Wang, Hong Chen, Zeyang Zhang, Zihan Song, Yuwei Zhou, Wenwu Zhu
cs.AI

Samenvatting

Onlangs hebben onderzoekers geprobeerd de mogelijkheden van LLM's (Large Language Models) bij het verwerken van video's te onderzoeken en hebben ze verschillende video-LLM-modellen voorgesteld. Het vermogen van LLM's om video grounding (VG) aan te kunnen, een belangrijke tijdgerelateerde videotaak waarbij het model de begin- en eindtijdsstempels van temporele momenten in video's die overeenkomen met gegeven tekstuele queries nauwkeurig moet lokaliseren, blijft echter nog onduidelijk en onontgonnen in de literatuur. Om deze leemte op te vullen, stellen we in dit artikel de LLM4VG-benchmark voor, die systematisch de prestaties van verschillende LLM's op video grounding-taken evalueert. Op basis van onze voorgestelde LLM4VG ontwerpen we uitgebreide experimenten om twee groepen video-LLM-modellen te onderzoeken op video grounding: (i) de video-LLM's getraind op tekst-video-paren (aangeduid als VidLLM), en (ii) de LLM's gecombineerd met vooraf getrainde visuele beschrijvingsmodellen, zoals het video/beeld-beschrijvingsmodel. We stellen promptmethoden voor om de instructie van VG en beschrijvingen van verschillende soorten generatoren te integreren, waaronder caption-gebaseerde generatoren voor directe visuele beschrijving en VQA-gebaseerde generatoren voor informatieversterking. We bieden ook uitgebreide vergelijkingen van verschillende VidLLM's en onderzoeken de invloed van verschillende keuzes van visuele modellen, LLM's, promptontwerpen, enzovoort. Onze experimentele evaluaties leiden tot twee conclusies: (i) de bestaande VidLLM's zijn nog ver verwijderd van het bereiken van bevredigende prestaties op het gebied van video grounding, en meer tijdgerelateerde videotaken moeten worden opgenomen om deze modellen verder te finetunen, en (ii) de combinatie van LLM's en visuele modellen toont eerste vermogens voor video grounding met aanzienlijk potentieel voor verbetering door gebruik te maken van betrouwbaardere modellen en verdere begeleiding van promptinstructies.
English
Recently, researchers have attempted to investigate the capability of LLMs in handling videos and proposed several video LLM models. However, the ability of LLMs to handle video grounding (VG), which is an important time-related video task requiring the model to precisely locate the start and end timestamps of temporal moments in videos that match the given textual queries, still remains unclear and unexplored in literature. To fill the gap, in this paper, we propose the LLM4VG benchmark, which systematically evaluates the performance of different LLMs on video grounding tasks. Based on our proposed LLM4VG, we design extensive experiments to examine two groups of video LLM models on video grounding: (i) the video LLMs trained on the text-video pairs (denoted as VidLLM), and (ii) the LLMs combined with pretrained visual description models such as the video/image captioning model. We propose prompt methods to integrate the instruction of VG and description from different kinds of generators, including caption-based generators for direct visual description and VQA-based generators for information enhancement. We also provide comprehensive comparisons of various VidLLMs and explore the influence of different choices of visual models, LLMs, prompt designs, etc, as well. Our experimental evaluations lead to two conclusions: (i) the existing VidLLMs are still far away from achieving satisfactory video grounding performance, and more time-related video tasks should be included to further fine-tune these models, and (ii) the combination of LLMs and visual models shows preliminary abilities for video grounding with considerable potential for improvement by resorting to more reliable models and further guidance of prompt instructions.
PDF31February 8, 2026