ChatPaper.aiChatPaper

OmniCap-IF: Evaluación comparativa y mejora de las capacidades de seguimiento de instrucciones para la descripción de videos omni

OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning

June 7, 2026
Autores: Jiahao Wang, An Ping, Yanghai Wang, Yuanxing Zhang, Shihao Li, Hanyan Bian, Yichi Ren, Yize Zhang, Han Wang, Haowen Chen, Junze Li, Jiaqi Wang, Yiyang Hu, Zhuze Xu, Zijie Zhang, Jiaheng Liu
cs.AI

Resumen

Mientras que los Modelos de Lenguaje Grande Omni-modales (OLLMs) han demostrado capacidades impresionantes para procesar conjuntamente flujos de audio y vídeo, su capacidad para adherirse estrictamente a instrucciones de usuario complejas y multifacéticas sigue estando en gran medida inexplorada. Los puntos de referencia existentes se centran principalmente en la comprensión holística de vídeo o en el seguimiento de instrucciones basadas únicamente en texto, sin capturar la intrincada interacción entre las modalidades y las restricciones del usuario. Para cerrar esta brecha, presentamos OmniCap-IF, el primer punto de referencia integral diseñado específicamente para evaluar las capacidades de seguimiento de instrucciones en la descripción de contenido omni-modal. OmniCap-IF incorpora un marco sistemático que evalúa las descripciones en dos dimensiones: corrección del formato y corrección del contenido. Nuestro punto de referencia abarca 50 tipos de restricciones distintas en modalidades puramente visuales, puramente auditivas y audiovisuales, integrando al mismo tiempo el Anclaje Temporal para evaluar la precisión espacio-temporal. Evaluaciones exhaustivas de modelos destacados en 1920 muestras de alta calidad revelan disparidades significativas en el rendimiento. Además, nuestro análisis descubre un "compromiso formato-contenido" crítico, demostrando que aumentar la complejidad del formato degrada directamente las capacidades de razonamiento omni-modal de los modelos. Finalmente, para avanzar en el campo, curamos un conjunto de datos de ajuste por instrucciones de 54K, OmniCap-IF-54K, y presentamos OmniCaptioner-IF, que logra mejoras notables tanto en la adherencia a instrucciones complejas como en el rendimiento general de descripción de contenido omni-modal.
English
While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing audio and visual streams, their ability to strictly adhere to complex, multi-faceted user instructions remains largely unexplored. Existing benchmarks primarily focus on holistic video understanding or text-only instruction following, failing to capture the intricate interplay between modalities and user constraints. To bridge this gap, we introduce OmniCap-IF, the first comprehensive benchmark specifically designed to evaluate instruction-following capabilities in omni-modal captioning. OmniCap-IF incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our benchmark encompasses 50 distinct constraint types across pure visual, pure audio, and audio-visual modalities, while integrating Temporal Grounding to assess spatio-temporal precision. Extensive evaluations of prominent models on 1,920 high-quality samples reveal significant performance disparities. Furthermore, our analysis uncovers a critical "format-content tradeoff", demonstrating that increasing formatting complexity directly degrades models' omni-modal reasoning abilities. Finally, to advance the field, we curate a 54K instruction-tuning dataset, OmniCap-IF-54K and present OmniCaptioner-IF, which achieves notable improvements in both complex instruction adherence and general omni-modal captioning performance.