OmniCap-IF: Evaluación comparativa y mejora de las capacidades de seguimiento de instrucciones para la descripción de videos omni

Resumen

Mientras que los Modelos de Lenguaje Grande Omni-modales (OLLMs) han demostrado capacidades impresionantes para procesar conjuntamente flujos de audio y vídeo, su capacidad para adherirse estrictamente a instrucciones de usuario complejas y multifacéticas sigue estando en gran medida inexplorada. Los puntos de referencia existentes se centran principalmente en la comprensión holística de vídeo o en el seguimiento de instrucciones basadas únicamente en texto, sin capturar la intrincada interacción entre las modalidades y las restricciones del usuario. Para cerrar esta brecha, presentamos OmniCap-IF, el primer punto de referencia integral diseñado específicamente para evaluar las capacidades de seguimiento de instrucciones en la descripción de contenido omni-modal. OmniCap-IF incorpora un marco sistemático que evalúa las descripciones en dos dimensiones: corrección del formato y corrección del contenido. Nuestro punto de referencia abarca 50 tipos de restricciones distintas en modalidades puramente visuales, puramente auditivas y audiovisuales, integrando al mismo tiempo el Anclaje Temporal para evaluar la precisión espacio-temporal. Evaluaciones exhaustivas de modelos destacados en 1920 muestras de alta calidad revelan disparidades significativas en el rendimiento. Además, nuestro análisis descubre un "compromiso formato-contenido" crítico, demostrando que aumentar la complejidad del formato degrada directamente las capacidades de razonamiento omni-modal de los modelos. Finalmente, para avanzar en el campo, curamos un conjunto de datos de ajuste por instrucciones de 54K, OmniCap-IF-54K, y presentamos OmniCaptioner-IF, que logra mejoras notables tanto en la adherencia a instrucciones complejas como en el rendimiento general de descripción de contenido omni-modal.

English

While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing audio and visual streams, their ability to strictly adhere to complex, multi-faceted user instructions remains largely unexplored. Existing benchmarks primarily focus on holistic video understanding or text-only instruction following, failing to capture the intricate interplay between modalities and user constraints. To bridge this gap, we introduce OmniCap-IF, the first comprehensive benchmark specifically designed to evaluate instruction-following capabilities in omni-modal captioning. OmniCap-IF incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our benchmark encompasses 50 distinct constraint types across pure visual, pure audio, and audio-visual modalities, while integrating Temporal Grounding to assess spatio-temporal precision. Extensive evaluations of prominent models on 1,920 high-quality samples reveal significant performance disparities. Furthermore, our analysis uncovers a critical "format-content tradeoff", demonstrating that increasing formatting complexity directly degrades models' omni-modal reasoning abilities. Finally, to advance the field, we curate a 54K instruction-tuning dataset, OmniCap-IF-54K and present OmniCaptioner-IF, which achieves notable improvements in both complex instruction adherence and general omni-modal captioning performance.