ChatPaper.aiChatPaper

IF-VidCap: Могут ли модели генерации подписей к видео следовать инструкциям?

IF-VidCap: Can Video Caption Models Follow Instructions?

October 21, 2025
Авторы: Shihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu
cs.AI

Аннотация

Хотя мультимодальные большие языковые модели (MLLM) продемонстрировали высокую эффективность в создании видеозаголовков, практические приложения требуют заголовков, которые соответствуют конкретным инструкциям пользователя, а не генерируют исчерпывающие, неограниченные описания. Однако текущие бенчмарки в основном оценивают описательную полноту, практически игнорируя способность следовать инструкциям. Чтобы устранить этот пробел, мы представляем IF-VidCap — новый бенчмарк для оценки управляемого создания видеозаголовков, содержащий 1400 высококачественных образцов. В отличие от существующих бенчмарков для создания видеозаголовков или общего следования инструкциям, IF-VidCap включает систематическую структуру, которая оценивает заголовки по двум измерениям: корректность формата и корректность содержания. Наше всестороннее тестирование более 20 ведущих моделей выявило сложную картину: несмотря на продолжающееся доминирование проприетарных моделей, разрыв в производительности сокращается, и лучшие открытые решения теперь достигают почти паритета. Кроме того, мы обнаружили, что модели, специализированные для плотного создания заголовков, уступают универсальным MLLM в выполнении сложных инструкций, что указывает на необходимость одновременного улучшения как описательной насыщенности, так и точности следования инструкциям в будущих исследованиях.
English
Although Multimodal Large Language Models (MLLMs) have demonstrated proficiency in video captioning, practical applications require captions that follow specific user instructions rather than generating exhaustive, unconstrained descriptions. Current benchmarks, however, primarily assess descriptive comprehensiveness while largely overlooking instruction-following capabilities. To address this gap, we introduce IF-VidCap, a new benchmark for evaluating controllable video captioning, which contains 1,400 high-quality samples. Distinct from existing video captioning or general instruction-following benchmarks, IF-VidCap incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our comprehensive evaluation of over 20 prominent models reveals a nuanced landscape: despite the continued dominance of proprietary models, the performance gap is closing, with top-tier open-source solutions now achieving near-parity. Furthermore, we find that models specialized for dense captioning underperform general-purpose MLLMs on complex instructions, indicating that future work should simultaneously advance both descriptive richness and instruction-following fidelity.
PDF242October 22, 2025