OmniCap-IF: オムニビデオキャプショニングにおける指示追従能力のベンチマークと向上
OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning
June 7, 2026
著者: Jiahao Wang, An Ping, Yanghai Wang, Yuanxing Zhang, Shihao Li, Hanyan Bian, Yichi Ren, Yize Zhang, Han Wang, Haowen Chen, Junze Li, Jiaqi Wang, Yiyang Hu, Zhuze Xu, Zijie Zhang, Jiaheng Liu
cs.AI
要旨
オムニモーダル大規模言語モデル(OLLMs)は、音声と視覚ストリームを同時に処理する優れた能力を示しているが、複雑で多面的なユーザ指示に厳密に従う能力はほとんど未解明のままである。既存のベンチマークは主に全体的な動画理解やテキストのみの指示追従に焦点を当てており、モダリティとユーザ制約の間の複雑な相互作用を捉えきれていない。このギャップを埋めるため、我々はオムニモーダルキャプショニングにおける指示追従能力を評価するために特別に設計された初の包括的ベンチマークであるOmniCap-IFを導入する。
OmniCap-IFは、形式正しさと内容正しさの2次元でキャプションを評価する体系的なフレームワークを採用している。本ベンチマークは、純粋視覚、純粋音声、音声-視覚の各モダリティにわたる50種類の異なる制約タイプを網羅するとともに、時間的グラウンディングを統合して時空間精度を評価する。
顕著なモデルに対する1,920の高品質サンプルを用いた広範な評価により、有意な性能格差が明らかになった。さらに、我々の分析は「形式-内容トレードオフ」という重要な現象を明らかにし、形式化の複雑さを増すことがモデルのオムニモーダル推論能力を直接的に低下させることを示している。
最後に、分野の進展のために、我々は54Kの指示チューニングデータセットであるOmniCap-IF-54Kを厳選し、OmniCaptioner-IFを提案する。これは、複雑な指示への追従と一般的なオムニモーダルキャプショニング性能の両方において顕著な改善を達成する。
English
While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing audio and visual streams, their ability to strictly adhere to complex, multi-faceted user instructions remains largely unexplored. Existing benchmarks primarily focus on holistic video understanding or text-only instruction following, failing to capture the intricate interplay between modalities and user constraints. To bridge this gap, we introduce OmniCap-IF, the first comprehensive benchmark specifically designed to evaluate instruction-following capabilities in omni-modal captioning. OmniCap-IF incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our benchmark encompasses 50 distinct constraint types across pure visual, pure audio, and audio-visual modalities, while integrating Temporal Grounding to assess spatio-temporal precision. Extensive evaluations of prominent models on 1,920 high-quality samples reveal significant performance disparities. Furthermore, our analysis uncovers a critical "format-content tradeoff", demonstrating that increasing formatting complexity directly degrades models' omni-modal reasoning abilities. Finally, to advance the field, we curate a 54K instruction-tuning dataset, OmniCap-IF-54K and present OmniCaptioner-IF, which achieves notable improvements in both complex instruction adherence and general omni-modal captioning performance.