ChatPaper.aiChatPaper

IF-VidCap : Les modèles de sous-titrage vidéo peuvent-ils suivre des instructions ?

IF-VidCap: Can Video Caption Models Follow Instructions?

October 21, 2025
papers.authors: Shihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu
cs.AI

papers.abstract

Bien que les modèles de langage multimodaux de grande envergure (MLLMs) aient démontré leur compétence en matière de sous-titrage vidéo, les applications pratiques nécessitent des légendes qui suivent des instructions spécifiques de l'utilisateur plutôt que de générer des descriptions exhaustives et non contraintes. Les benchmarks actuels, cependant, évaluent principalement l'exhaustivité descriptive tout en négligeant largement les capacités de suivi des instructions. Pour combler cette lacune, nous introduisons IF-VidCap, un nouveau benchmark pour l'évaluation du sous-titrage vidéo contrôlable, qui contient 1 400 échantillons de haute qualité. Distinct des benchmarks existants de sous-titrage vidéo ou de suivi général des instructions, IF-VidCap intègre un cadre systématique qui évalue les légendes sur deux dimensions : la correction du format et la correction du contenu. Notre évaluation approfondie de plus de 20 modèles éminents révèle un paysage nuancé : malgré la domination continue des modèles propriétaires, l'écart de performance se réduit, les meilleures solutions open-source atteignant désormais une quasi-parité. De plus, nous constatons que les modèles spécialisés dans le sous-titrage dense sous-performent les MLLMs à usage général sur des instructions complexes, indiquant que les travaux futurs devraient simultanément faire progresser à la fois la richesse descriptive et la fidélité au suivi des instructions.
English
Although Multimodal Large Language Models (MLLMs) have demonstrated proficiency in video captioning, practical applications require captions that follow specific user instructions rather than generating exhaustive, unconstrained descriptions. Current benchmarks, however, primarily assess descriptive comprehensiveness while largely overlooking instruction-following capabilities. To address this gap, we introduce IF-VidCap, a new benchmark for evaluating controllable video captioning, which contains 1,400 high-quality samples. Distinct from existing video captioning or general instruction-following benchmarks, IF-VidCap incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our comprehensive evaluation of over 20 prominent models reveals a nuanced landscape: despite the continued dominance of proprietary models, the performance gap is closing, with top-tier open-source solutions now achieving near-parity. Furthermore, we find that models specialized for dense captioning underperform general-purpose MLLMs on complex instructions, indicating that future work should simultaneously advance both descriptive richness and instruction-following fidelity.
PDF242October 22, 2025