ChatPaper.aiChatPaper

OmniCap-IF: Benchmarking e melhoria das capacidades de seguir instruções para legendagem de vídeos omni

OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning

June 7, 2026
Autores: Jiahao Wang, An Ping, Yanghai Wang, Yuanxing Zhang, Shihao Li, Hanyan Bian, Yichi Ren, Yize Zhang, Han Wang, Haowen Chen, Junze Li, Jiaqi Wang, Yiyang Hu, Zhuze Xu, Zijie Zhang, Jiaheng Liu
cs.AI

Resumo

Embora os Modelos de Linguagem Grande Omni-modais (OLLMs) tenham demonstrado capacidades impressionantes no processamento conjunto de fluxos de áudio e vídeo, sua capacidade de aderir estritamente a instruções complexas e multifacetadas do usuário permanece amplamente inexplorada. Os benchmarks existentes concentram-se principalmente na compreensão holística de vídeos ou no seguimento de instruções baseadas apenas em texto, não capturando a intrincada interação entre modalidades e restrições do usuário. Para preencher essa lacuna, apresentamos o OmniCap-IF, o primeiro benchmark abrangente especificamente projetado para avaliar capacidades de seguimento de instruções em legendagem omni-modal. O OmniCap-IF incorpora uma estrutura sistemática que avalia legendas em duas dimensões: correção de formato e correção de conteúdo. Nosso benchmark abrange 50 tipos distintos de restrições em modalidades puramente visuais, puramente auditivas e audiovisuais, enquanto integra Ancoragem Temporal para avaliar a precisão espaço-temporal. Avaliações extensivas de modelos proeminentes em 1.920 amostras de alta qualidade revelam disparidades significativas de desempenho. Além disso, nossa análise descobre um crítico "tradeoff formato-conteúdo", demonstrando que o aumento da complexidade de formatação degrada diretamente as capacidades de raciocínio omni-modal dos modelos. Finalmente, para avançar na área, curamos um conjunto de dados de ajuste de instruções com 54 mil amostras, o OmniCap-IF-54K, e apresentamos o OmniCaptioner-IF, que alcança melhorias notáveis tanto na adesão a instruções complexas quanto no desempenho geral de legendagem omni-modal.
English
While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing audio and visual streams, their ability to strictly adhere to complex, multi-faceted user instructions remains largely unexplored. Existing benchmarks primarily focus on holistic video understanding or text-only instruction following, failing to capture the intricate interplay between modalities and user constraints. To bridge this gap, we introduce OmniCap-IF, the first comprehensive benchmark specifically designed to evaluate instruction-following capabilities in omni-modal captioning. OmniCap-IF incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our benchmark encompasses 50 distinct constraint types across pure visual, pure audio, and audio-visual modalities, while integrating Temporal Grounding to assess spatio-temporal precision. Extensive evaluations of prominent models on 1,920 high-quality samples reveal significant performance disparities. Furthermore, our analysis uncovers a critical "format-content tradeoff", demonstrating that increasing formatting complexity directly degrades models' omni-modal reasoning abilities. Finally, to advance the field, we curate a 54K instruction-tuning dataset, OmniCap-IF-54K and present OmniCaptioner-IF, which achieves notable improvements in both complex instruction adherence and general omni-modal captioning performance.