OmniCap-IF: Benchmarking e melhoria das capacidades de seguir instruções para legendagem de vídeos omni

Resumo

Embora os Modelos de Linguagem Grande Omni-modais (OLLMs) tenham demonstrado capacidades impressionantes no processamento conjunto de fluxos de áudio e vídeo, sua capacidade de aderir estritamente a instruções complexas e multifacetadas do usuário permanece amplamente inexplorada. Os benchmarks existentes concentram-se principalmente na compreensão holística de vídeos ou no seguimento de instruções baseadas apenas em texto, não capturando a intrincada interação entre modalidades e restrições do usuário. Para preencher essa lacuna, apresentamos o OmniCap-IF, o primeiro benchmark abrangente especificamente projetado para avaliar capacidades de seguimento de instruções em legendagem omni-modal. O OmniCap-IF incorpora uma estrutura sistemática que avalia legendas em duas dimensões: correção de formato e correção de conteúdo. Nosso benchmark abrange 50 tipos distintos de restrições em modalidades puramente visuais, puramente auditivas e audiovisuais, enquanto integra Ancoragem Temporal para avaliar a precisão espaço-temporal. Avaliações extensivas de modelos proeminentes em 1.920 amostras de alta qualidade revelam disparidades significativas de desempenho. Além disso, nossa análise descobre um crítico "tradeoff formato-conteúdo", demonstrando que o aumento da complexidade de formatação degrada diretamente as capacidades de raciocínio omni-modal dos modelos. Finalmente, para avançar na área, curamos um conjunto de dados de ajuste de instruções com 54 mil amostras, o OmniCap-IF-54K, e apresentamos o OmniCaptioner-IF, que alcança melhorias notáveis tanto na adesão a instruções complexas quanto no desempenho geral de legendagem omni-modal.

English

While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing audio and visual streams, their ability to strictly adhere to complex, multi-faceted user instructions remains largely unexplored. Existing benchmarks primarily focus on holistic video understanding or text-only instruction following, failing to capture the intricate interplay between modalities and user constraints. To bridge this gap, we introduce OmniCap-IF, the first comprehensive benchmark specifically designed to evaluate instruction-following capabilities in omni-modal captioning. OmniCap-IF incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our benchmark encompasses 50 distinct constraint types across pure visual, pure audio, and audio-visual modalities, while integrating Temporal Grounding to assess spatio-temporal precision. Extensive evaluations of prominent models on 1,920 high-quality samples reveal significant performance disparities. Furthermore, our analysis uncovers a critical "format-content tradeoff", demonstrating that increasing formatting complexity directly degrades models' omni-modal reasoning abilities. Finally, to advance the field, we curate a 54K instruction-tuning dataset, OmniCap-IF-54K and present OmniCaptioner-IF, which achieves notable improvements in both complex instruction adherence and general omni-modal captioning performance.