IF-VidCap: 비디오 캡션 모델은 지시를 따를 수 있는가?
IF-VidCap: Can Video Caption Models Follow Instructions?
October 21, 2025
저자: Shihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)이 비디오 캡셔닝에서 능숙함을 보여주었지만, 실제 응용에서는 포괄적이고 제약 없는 설명을 생성하는 대신 특정 사용자 지시를 따르는 캡션이 필요합니다. 그러나 현재 벤치마크는 주로 설명의 포괄성을 평가하는 반면, 지시 따르기 능력은 크게 간과하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 제어 가능한 비디오 캡셔닝을 평가하기 위한 새로운 벤치마크인 IF-VidCap을 소개합니다. 이 벤치마크는 1,400개의 고품질 샘플을 포함하고 있습니다. 기존의 비디오 캡셔닝 또는 일반적인 지시 따르기 벤치마크와는 달리, IF-VidCap은 형식 정확성과 내용 정확성이라는 두 가지 차원에서 캡션을 평가하는 체계적인 프레임워크를 통합합니다. 20개 이상의 주요 모델에 대한 포괄적인 평가 결과, 독점 모델의 지배력이 여전히 유지되고 있지만, 최상위 오픈소스 솔루션이 거의 동등한 성능을 달성하며 격차가 좁혀지고 있음을 보여줍니다. 또한, 복잡한 지시에서 밀도 높은 캡셔닝에 특화된 모델들이 일반 목적 MLLMs보다 성능이 떨어지는 것으로 나타나, 향후 연구는 설명의 풍부함과 지시 따르기의 충실도를 동시에 발전시켜야 함을 시사합니다.
English
Although Multimodal Large Language Models (MLLMs) have demonstrated
proficiency in video captioning, practical applications require captions that
follow specific user instructions rather than generating exhaustive,
unconstrained descriptions. Current benchmarks, however, primarily assess
descriptive comprehensiveness while largely overlooking instruction-following
capabilities. To address this gap, we introduce IF-VidCap, a new benchmark for
evaluating controllable video captioning, which contains 1,400 high-quality
samples. Distinct from existing video captioning or general
instruction-following benchmarks, IF-VidCap incorporates a systematic framework
that assesses captions on two dimensions: format correctness and content
correctness. Our comprehensive evaluation of over 20 prominent models reveals a
nuanced landscape: despite the continued dominance of proprietary models, the
performance gap is closing, with top-tier open-source solutions now achieving
near-parity. Furthermore, we find that models specialized for dense captioning
underperform general-purpose MLLMs on complex instructions, indicating that
future work should simultaneously advance both descriptive richness and
instruction-following fidelity.