LLM4VG: Valutazione dei Modelli Linguistici di Grande Dimensione per il Grounding Video
LLM4VG: Large Language Models Evaluation for Video Grounding
December 21, 2023
Autori: Wei Feng, Xin Wang, Hong Chen, Zeyang Zhang, Zihan Song, Yuwei Zhou, Wenwu Zhu
cs.AI
Abstract
Recentemente, i ricercatori hanno tentato di indagare la capacità dei modelli linguistici di grandi dimensioni (LLM) nel gestire i video e hanno proposto diversi modelli di LLM per video. Tuttavia, la capacità degli LLM di gestire il video grounding (VG), un importante compito video legato al tempo che richiede al modello di individuare con precisione i timestamp di inizio e fine dei momenti temporali nei video che corrispondono alle query testuali fornite, rimane ancora poco chiara e inesplorata nella letteratura. Per colmare questa lacuna, in questo articolo proponiamo il benchmark LLM4VG, che valuta sistematicamente le prestazioni di diversi LLM nei compiti di video grounding. Basandoci sul nostro LLM4VG, progettiamo esperimenti estesi per esaminare due gruppi di modelli LLM per video nel contesto del video grounding: (i) gli LLM per video addestrati su coppie testo-video (denominati VidLLM), e (ii) gli LLM combinati con modelli pre-addestrati di descrizione visiva, come i modelli di captioning video/immagini. Proponiamo metodi di prompt per integrare l'istruzione del VG e la descrizione proveniente da diversi tipi di generatori, inclusi generatori basati su caption per la descrizione visiva diretta e generatori basati su VQA per il potenziamento delle informazioni. Forniamo anche confronti completi tra vari VidLLM ed esploriamo l'influenza di diverse scelte di modelli visivi, LLM, design dei prompt, ecc. Le nostre valutazioni sperimentali portano a due conclusioni: (i) gli attuali VidLLM sono ancora lontani dal raggiungere prestazioni soddisfacenti nel video grounding, e più compiti video legati al tempo dovrebbero essere inclusi per affinare ulteriormente questi modelli, e (ii) la combinazione di LLM e modelli visivi mostra capacità preliminari per il video grounding con un potenziale considerevole di miglioramento ricorrendo a modelli più affidabili e a un'ulteriore guida delle istruzioni dei prompt.
English
Recently, researchers have attempted to investigate the capability of LLMs in
handling videos and proposed several video LLM models. However, the ability of
LLMs to handle video grounding (VG), which is an important time-related video
task requiring the model to precisely locate the start and end timestamps of
temporal moments in videos that match the given textual queries, still remains
unclear and unexplored in literature. To fill the gap, in this paper, we
propose the LLM4VG benchmark, which systematically evaluates the performance of
different LLMs on video grounding tasks. Based on our proposed LLM4VG, we
design extensive experiments to examine two groups of video LLM models on video
grounding: (i) the video LLMs trained on the text-video pairs (denoted as
VidLLM), and (ii) the LLMs combined with pretrained visual description models
such as the video/image captioning model. We propose prompt methods to
integrate the instruction of VG and description from different kinds of
generators, including caption-based generators for direct visual description
and VQA-based generators for information enhancement. We also provide
comprehensive comparisons of various VidLLMs and explore the influence of
different choices of visual models, LLMs, prompt designs, etc, as well. Our
experimental evaluations lead to two conclusions: (i) the existing VidLLMs are
still far away from achieving satisfactory video grounding performance, and
more time-related video tasks should be included to further fine-tune these
models, and (ii) the combination of LLMs and visual models shows preliminary
abilities for video grounding with considerable potential for improvement by
resorting to more reliable models and further guidance of prompt instructions.