IF-VidCap: ¿Pueden los modelos de subtitulado de video seguir instrucciones?
IF-VidCap: Can Video Caption Models Follow Instructions?
October 21, 2025
Autores: Shihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu
cs.AI
Resumen
Aunque los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado competencia en la generación de descripciones de videos, las aplicaciones prácticas requieren subtítulos que sigan instrucciones específicas del usuario en lugar de generar descripciones exhaustivas y sin restricciones. Sin embargo, los puntos de referencia actuales evalúan principalmente la exhaustividad descriptiva, pasando por alto en gran medida las capacidades de seguimiento de instrucciones. Para abordar esta brecha, presentamos IF-VidCap, un nuevo punto de referencia para evaluar la generación controlada de subtítulos de videos, que contiene 1,400 muestras de alta calidad. A diferencia de los puntos de referencia existentes para la generación de subtítulos de videos o el seguimiento general de instrucciones, IF-VidCap incorpora un marco sistemático que evalúa los subtítulos en dos dimensiones: corrección del formato y corrección del contenido. Nuestra evaluación exhaustiva de más de 20 modelos destacados revela un panorama matizado: a pesar de la continua dominación de los modelos propietarios, la brecha de rendimiento se está cerrando, con las soluciones de código abierto de primer nivel alcanzando ahora una paridad cercana. Además, encontramos que los modelos especializados en la generación de subtítulos densos tienen un rendimiento inferior al de los MLLMs de propósito general en instrucciones complejas, lo que indica que el trabajo futuro debería avanzar simultáneamente tanto en la riqueza descriptiva como en la fidelidad de seguimiento de instrucciones.
English
Although Multimodal Large Language Models (MLLMs) have demonstrated
proficiency in video captioning, practical applications require captions that
follow specific user instructions rather than generating exhaustive,
unconstrained descriptions. Current benchmarks, however, primarily assess
descriptive comprehensiveness while largely overlooking instruction-following
capabilities. To address this gap, we introduce IF-VidCap, a new benchmark for
evaluating controllable video captioning, which contains 1,400 high-quality
samples. Distinct from existing video captioning or general
instruction-following benchmarks, IF-VidCap incorporates a systematic framework
that assesses captions on two dimensions: format correctness and content
correctness. Our comprehensive evaluation of over 20 prominent models reveals a
nuanced landscape: despite the continued dominance of proprietary models, the
performance gap is closing, with top-tier open-source solutions now achieving
near-parity. Furthermore, we find that models specialized for dense captioning
underperform general-purpose MLLMs on complex instructions, indicating that
future work should simultaneously advance both descriptive richness and
instruction-following fidelity.