ChatPaper.aiChatPaper

IF-VidCap: Kunnen videobijschriftmodellen instructies volgen?

IF-VidCap: Can Video Caption Models Follow Instructions?

October 21, 2025
Auteurs: Shihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu
cs.AI

Samenvatting

Hoewel Multimodale Grote Taalmodellen (MLLMs) bekwaamheid hebben getoond in videobeschrijvingen, vereisen praktische toepassingen beschrijvingen die specifieke gebruikersinstructies volgen in plaats van uitgebreide, onbeperkte beschrijvingen te genereren. Huidige benchmarks beoordelen echter voornamelijk de beschrijvende volledigheid en negeren grotendeels de mogelijkheden om instructies te volgen. Om dit gat te dichten, introduceren we IF-VidCap, een nieuwe benchmark voor het evalueren van beheersbare videobeschrijvingen, die 1.400 hoogwaardige samples bevat. In tegenstelling tot bestaande benchmarks voor videobeschrijvingen of algemene instructievolging, integreert IF-VidCap een systematisch raamwerk dat beschrijvingen beoordeelt op twee dimensies: correctheid van het formaat en correctheid van de inhoud. Onze uitgebreide evaluatie van meer dan 20 prominente modellen onthult een genuanceerd beeld: ondanks de voortdurende dominantie van propriëtaire modellen, wordt de prestatiekloof kleiner, waarbij toonaangevende open-source oplossingen nu bijna gelijkwaardig presteren. Bovendien blijkt dat modellen die gespecialiseerd zijn in dichte beschrijvingen onderpresteren in vergelijking met algemene MLLMs bij complexe instructies, wat aangeeft dat toekomstig werk zowel de beschrijvende rijkdom als de trouw aan instructies gelijktijdig moet bevorderen.
English
Although Multimodal Large Language Models (MLLMs) have demonstrated proficiency in video captioning, practical applications require captions that follow specific user instructions rather than generating exhaustive, unconstrained descriptions. Current benchmarks, however, primarily assess descriptive comprehensiveness while largely overlooking instruction-following capabilities. To address this gap, we introduce IF-VidCap, a new benchmark for evaluating controllable video captioning, which contains 1,400 high-quality samples. Distinct from existing video captioning or general instruction-following benchmarks, IF-VidCap incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our comprehensive evaluation of over 20 prominent models reveals a nuanced landscape: despite the continued dominance of proprietary models, the performance gap is closing, with top-tier open-source solutions now achieving near-parity. Furthermore, we find that models specialized for dense captioning underperform general-purpose MLLMs on complex instructions, indicating that future work should simultaneously advance both descriptive richness and instruction-following fidelity.
PDF242October 22, 2025