IF-VidCap: I modelli di descrizione video possono seguire istruzioni?
IF-VidCap: Can Video Caption Models Follow Instructions?
October 21, 2025
Autori: Shihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu
cs.AI
Abstract
Sebbene i Modelli Linguistici Multimodali di Grande Scala (MLLM) abbiano dimostrato competenza nella generazione di didascalie per video, le applicazioni pratiche richiedono didascalie che seguano specifiche istruzioni dell'utente piuttosto che produrre descrizioni esaustive e non vincolate. Gli attuali benchmark, tuttavia, valutano principalmente la completezza descrittiva, trascurando in larga misura le capacità di seguire le istruzioni. Per colmare questa lacuna, introduciamo IF-VidCap, un nuovo benchmark per la valutazione della generazione controllata di didascalie video, che contiene 1.400 campioni di alta qualità. A differenza dei benchmark esistenti per la generazione di didascalie video o per il seguire istruzioni generali, IF-VidCap incorpora un framework sistematico che valuta le didascalie su due dimensioni: correttezza del formato e correttezza del contenuto. La nostra valutazione completa di oltre 20 modelli di rilievo rivela un panorama sfumato: nonostante il continuo predominio dei modelli proprietari, il divario di prestazioni si sta riducendo, con le migliori soluzioni open-source che ora raggiungono una parità quasi totale. Inoltre, scopriamo che i modelli specializzati per la generazione di didascalie dense hanno prestazioni inferiori rispetto ai MLLM generici su istruzioni complesse, indicando che il lavoro futuro dovrebbe avanzare simultaneamente sia la ricchezza descrittiva che la fedeltà nel seguire le istruzioni.
English
Although Multimodal Large Language Models (MLLMs) have demonstrated
proficiency in video captioning, practical applications require captions that
follow specific user instructions rather than generating exhaustive,
unconstrained descriptions. Current benchmarks, however, primarily assess
descriptive comprehensiveness while largely overlooking instruction-following
capabilities. To address this gap, we introduce IF-VidCap, a new benchmark for
evaluating controllable video captioning, which contains 1,400 high-quality
samples. Distinct from existing video captioning or general
instruction-following benchmarks, IF-VidCap incorporates a systematic framework
that assesses captions on two dimensions: format correctness and content
correctness. Our comprehensive evaluation of over 20 prominent models reveals a
nuanced landscape: despite the continued dominance of proprietary models, the
performance gap is closing, with top-tier open-source solutions now achieving
near-parity. Furthermore, we find that models specialized for dense captioning
underperform general-purpose MLLMs on complex instructions, indicating that
future work should simultaneously advance both descriptive richness and
instruction-following fidelity.