LLM4VG: Evaluierung von Large Language Models für Video Grounding
LLM4VG: Large Language Models Evaluation for Video Grounding
December 21, 2023
Autoren: Wei Feng, Xin Wang, Hong Chen, Zeyang Zhang, Zihan Song, Yuwei Zhou, Wenwu Zhu
cs.AI
Zusammenfassung
Kürzlich haben Forscher versucht, die Fähigkeit von LLMs (Large Language Models) im Umgang mit Videos zu untersuchen und mehrere Video-LLM-Modelle vorgeschlagen. Die Fähigkeit von LLMs, Video Grounding (VG) zu bewältigen – eine wichtige zeitbezogene Videoaufgabe, bei der das Modell die Start- und Endzeitpunkte von temporalen Momenten in Videos, die mit gegebenen textuellen Anfragen übereinstimmen, präzise lokalisieren muss – bleibt jedoch in der Literatur unklar und unerforscht. Um diese Lücke zu schließen, schlagen wir in diesem Artikel den LLM4VG-Benchmark vor, der die Leistung verschiedener LLMs bei Video-Grounding-Aufgaben systematisch evaluiert. Basierend auf unserem vorgeschlagenen LLM4VG entwerfen wir umfangreiche Experimente, um zwei Gruppen von Video-LLM-Modellen für Video Grounding zu untersuchen: (i) die auf Text-Video-Paaren trainierten Video-LLMs (bezeichnet als VidLLM) und (ii) die LLMs, die mit vortrainierten visuellen Beschreibungsmodellen wie Video-/Bildbeschreibungsmodellen kombiniert werden. Wir schlagen Prompt-Methoden vor, um die Anweisung für VG und die Beschreibung verschiedener Arten von Generatoren zu integrieren, einschließlich caption-basierter Generatoren für direkte visuelle Beschreibungen und VQA-basierter Generatoren zur Informationsverbesserung. Wir bieten auch umfassende Vergleiche verschiedener VidLLMs und untersuchen den Einfluss unterschiedlicher Wahlmöglichkeiten von visuellen Modellen, LLMs, Prompt-Designs usw. Unsere experimentellen Auswertungen führen zu zwei Schlussfolgerungen: (i) Die bestehenden VidLLMs sind noch weit davon entfernt, zufriedenstellende Video-Grounding-Leistungen zu erzielen, und es sollten mehr zeitbezogene Videoaufgaben einbezogen werden, um diese Modelle weiter zu feinabzustimmen, und (ii) die Kombination von LLMs und visuellen Modellen zeigt erste Fähigkeiten für Video Grounding mit beträchtlichem Verbesserungspotenzial durch die Nutzung zuverlässigerer Modelle und weiterer Anleitungen durch Prompt-Instruktionen.
English
Recently, researchers have attempted to investigate the capability of LLMs in
handling videos and proposed several video LLM models. However, the ability of
LLMs to handle video grounding (VG), which is an important time-related video
task requiring the model to precisely locate the start and end timestamps of
temporal moments in videos that match the given textual queries, still remains
unclear and unexplored in literature. To fill the gap, in this paper, we
propose the LLM4VG benchmark, which systematically evaluates the performance of
different LLMs on video grounding tasks. Based on our proposed LLM4VG, we
design extensive experiments to examine two groups of video LLM models on video
grounding: (i) the video LLMs trained on the text-video pairs (denoted as
VidLLM), and (ii) the LLMs combined with pretrained visual description models
such as the video/image captioning model. We propose prompt methods to
integrate the instruction of VG and description from different kinds of
generators, including caption-based generators for direct visual description
and VQA-based generators for information enhancement. We also provide
comprehensive comparisons of various VidLLMs and explore the influence of
different choices of visual models, LLMs, prompt designs, etc, as well. Our
experimental evaluations lead to two conclusions: (i) the existing VidLLMs are
still far away from achieving satisfactory video grounding performance, and
more time-related video tasks should be included to further fine-tune these
models, and (ii) the combination of LLMs and visual models shows preliminary
abilities for video grounding with considerable potential for improvement by
resorting to more reliable models and further guidance of prompt instructions.