IF-VidCap: Modelos de Legendagem de Vídeo Podem Seguir Instruções?
IF-VidCap: Can Video Caption Models Follow Instructions?
October 21, 2025
Autores: Shihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu
cs.AI
Resumo
Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tenham demonstrado proficiência na descrição de vídeos, aplicações práticas exigem legendas que sigam instruções específicas do usuário, em vez de gerar descrições exaustivas e sem restrições. No entanto, os benchmarks atuais avaliam principalmente a abrangência descritiva, enquanto negligenciam amplamente as capacidades de seguir instruções. Para preencher essa lacuna, introduzimos o IF-VidCap, um novo benchmark para avaliar a descrição de vídeos controlável, que contém 1.400 amostras de alta qualidade. Diferente dos benchmarks existentes de descrição de vídeos ou de seguir instruções gerais, o IF-VidCap incorpora uma estrutura sistemática que avalia as legendas em duas dimensões: correção de formato e correção de conteúdo. Nossa avaliação abrangente de mais de 20 modelos proeminentes revela um cenário complexo: apesar da contínua dominância dos modelos proprietários, a diferença de desempenho está diminuindo, com as melhores soluções de código aberto agora alcançando uma paridade quase total. Além disso, descobrimos que modelos especializados em descrição densa têm desempenho inferior aos MLLMs de propósito geral em instruções complexas, indicando que trabalhos futuros devem avançar simultaneamente tanto na riqueza descritiva quanto na fidelidade ao seguir instruções.
English
Although Multimodal Large Language Models (MLLMs) have demonstrated
proficiency in video captioning, practical applications require captions that
follow specific user instructions rather than generating exhaustive,
unconstrained descriptions. Current benchmarks, however, primarily assess
descriptive comprehensiveness while largely overlooking instruction-following
capabilities. To address this gap, we introduce IF-VidCap, a new benchmark for
evaluating controllable video captioning, which contains 1,400 high-quality
samples. Distinct from existing video captioning or general
instruction-following benchmarks, IF-VidCap incorporates a systematic framework
that assesses captions on two dimensions: format correctness and content
correctness. Our comprehensive evaluation of over 20 prominent models reveals a
nuanced landscape: despite the continued dominance of proprietary models, the
performance gap is closing, with top-tier open-source solutions now achieving
near-parity. Furthermore, we find that models specialized for dense captioning
underperform general-purpose MLLMs on complex instructions, indicating that
future work should simultaneously advance both descriptive richness and
instruction-following fidelity.