IF-VidCap: I modelli di descrizione video possono seguire istruzioni?

Abstract

Sebbene i Modelli Linguistici Multimodali di Grande Scala (MLLM) abbiano dimostrato competenza nella generazione di didascalie per video, le applicazioni pratiche richiedono didascalie che seguano specifiche istruzioni dell'utente piuttosto che produrre descrizioni esaustive e non vincolate. Gli attuali benchmark, tuttavia, valutano principalmente la completezza descrittiva, trascurando in larga misura le capacità di seguire le istruzioni. Per colmare questa lacuna, introduciamo IF-VidCap, un nuovo benchmark per la valutazione della generazione controllata di didascalie video, che contiene 1.400 campioni di alta qualità. A differenza dei benchmark esistenti per la generazione di didascalie video o per il seguire istruzioni generali, IF-VidCap incorpora un framework sistematico che valuta le didascalie su due dimensioni: correttezza del formato e correttezza del contenuto. La nostra valutazione completa di oltre 20 modelli di rilievo rivela un panorama sfumato: nonostante il continuo predominio dei modelli proprietari, il divario di prestazioni si sta riducendo, con le migliori soluzioni open-source che ora raggiungono una parità quasi totale. Inoltre, scopriamo che i modelli specializzati per la generazione di didascalie dense hanno prestazioni inferiori rispetto ai MLLM generici su istruzioni complesse, indicando che il lavoro futuro dovrebbe avanzare simultaneamente sia la ricchezza descrittiva che la fedeltà nel seguire le istruzioni.

English

Although Multimodal Large Language Models (MLLMs) have demonstrated proficiency in video captioning, practical applications require captions that follow specific user instructions rather than generating exhaustive, unconstrained descriptions. Current benchmarks, however, primarily assess descriptive comprehensiveness while largely overlooking instruction-following capabilities. To address this gap, we introduce IF-VidCap, a new benchmark for evaluating controllable video captioning, which contains 1,400 high-quality samples. Distinct from existing video captioning or general instruction-following benchmarks, IF-VidCap incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our comprehensive evaluation of over 20 prominent models reveals a nuanced landscape: despite the continued dominance of proprietary models, the performance gap is closing, with top-tier open-source solutions now achieving near-parity. Furthermore, we find that models specialized for dense captioning underperform general-purpose MLLMs on complex instructions, indicating that future work should simultaneously advance both descriptive richness and instruction-following fidelity.

IF-VidCap: I modelli di descrizione video possono seguire istruzioni?

IF-VidCap: Can Video Caption Models Follow Instructions?

Abstract

Support