IF-VidCap: Können Videountertitelungsmodelle Anweisungen befolgen?
IF-VidCap: Can Video Caption Models Follow Instructions?
October 21, 2025
papers.authors: Shihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu
cs.AI
papers.abstract
Obwohl Multimodale Große Sprachmodelle (MLLMs) Kompetenz in der Videobeschriftung gezeigt haben, erfordern praktische Anwendungen Beschriftungen, die spezifischen Benutzeranweisungen folgen, anstatt umfassende, unbegrenzte Beschreibungen zu generieren. Aktuelle Benchmarks bewerten jedoch hauptsächlich die deskriptive Vollständigkeit, während die Fähigkeit zur Befolgung von Anweisungen weitgehend vernachlässigt wird. Um diese Lücke zu schließen, stellen wir IF-VidCap vor, einen neuen Benchmark zur Bewertung kontrollierbarer Videobeschriftung, der 1.400 hochwertige Beispiele enthält. Im Gegensatz zu bestehenden Benchmarks für Videobeschriftung oder allgemeine Anweisungsbefolgung integriert IF-VidCap ein systematisches Framework, das Beschriftungen in zwei Dimensionen bewertet: Formatkorrektheit und Inhaltskorrektheit. Unsere umfassende Bewertung von über 20 prominenten Modellen zeigt ein differenziertes Bild: Trotz der anhaltenden Dominanz proprietärer Modelle schließt sich die Leistungslücke, wobei erstklassige Open-Source-Lösungen nun nahezu gleichauf liegen. Darüber hinaus stellen wir fest, dass Modelle, die für dichte Beschriftungen spezialisiert sind, bei komplexen Anweisungen schlechter abschneiden als allgemeine MLLMs, was darauf hindeutet, dass zukünftige Arbeiten sowohl die deskriptive Reichhaltigkeit als auch die Treue zur Anweisungsbefolgung gleichzeitig vorantreiben sollten.
English
Although Multimodal Large Language Models (MLLMs) have demonstrated
proficiency in video captioning, practical applications require captions that
follow specific user instructions rather than generating exhaustive,
unconstrained descriptions. Current benchmarks, however, primarily assess
descriptive comprehensiveness while largely overlooking instruction-following
capabilities. To address this gap, we introduce IF-VidCap, a new benchmark for
evaluating controllable video captioning, which contains 1,400 high-quality
samples. Distinct from existing video captioning or general
instruction-following benchmarks, IF-VidCap incorporates a systematic framework
that assesses captions on two dimensions: format correctness and content
correctness. Our comprehensive evaluation of over 20 prominent models reveals a
nuanced landscape: despite the continued dominance of proprietary models, the
performance gap is closing, with top-tier open-source solutions now achieving
near-parity. Furthermore, we find that models specialized for dense captioning
underperform general-purpose MLLMs on complex instructions, indicating that
future work should simultaneously advance both descriptive richness and
instruction-following fidelity.