ChatPaper.aiChatPaper

IF-VidCap: 映像キャプションモデルは指示に従えるか?

IF-VidCap: Can Video Caption Models Follow Instructions?

October 21, 2025
著者: Shihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)はビデオキャプション生成において高い能力を示しているが、実用的なアプリケーションでは、網羅的で制約のない記述ではなく、特定のユーザー指示に従ったキャプションが求められる。しかし、現在のベンチマークは主に記述の包括性を評価しており、指示追従能力をほとんど考慮していない。このギャップを埋めるため、我々は制御可能なビデオキャプション評価のための新しいベンチマーク「IF-VidCap」を導入した。これは1,400の高品質サンプルを含む。既存のビデオキャプションや一般的な指示追従ベンチマークとは異なり、IF-VidCapはキャプションを2つの次元で評価する体系的なフレームワークを採用している:形式の正確性と内容の正確性である。20以上の主要なモデルに対する包括的な評価により、微妙な状況が明らかになった:プロプライエタリモデルの優位性は続いているものの、その性能差は縮まっており、トップクラスのオープンソースソリューションがほぼ同等の性能を達成している。さらに、複雑な指示に対しては、高密度キャプション生成に特化したモデルが汎用MLLMに劣ることも判明し、今後の研究では記述の豊かさと指示追従の忠実性の両方を同時に進めるべきであることが示唆された。
English
Although Multimodal Large Language Models (MLLMs) have demonstrated proficiency in video captioning, practical applications require captions that follow specific user instructions rather than generating exhaustive, unconstrained descriptions. Current benchmarks, however, primarily assess descriptive comprehensiveness while largely overlooking instruction-following capabilities. To address this gap, we introduce IF-VidCap, a new benchmark for evaluating controllable video captioning, which contains 1,400 high-quality samples. Distinct from existing video captioning or general instruction-following benchmarks, IF-VidCap incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our comprehensive evaluation of over 20 prominent models reveals a nuanced landscape: despite the continued dominance of proprietary models, the performance gap is closing, with top-tier open-source solutions now achieving near-parity. Furthermore, we find that models specialized for dense captioning underperform general-purpose MLLMs on complex instructions, indicating that future work should simultaneously advance both descriptive richness and instruction-following fidelity.
PDF242October 22, 2025