OmniCap-IF: Бенчмаркинг и улучшение способностей следования инструкциям для всестороннего видео-аннотирования

Аннотация

Хотя омни-модальные большие языковые модели (Omni-modal Large Language Models, OLLMs) продемонстрировали впечатляющие возможности в совместной обработке аудио- и визуальных потоков, их способность строго следовать сложным, многогранным пользовательским инструкциям остается в значительной степени неизученной. Существующие бенчмарки в основном сосредоточены на целостном понимании видео или следовании текстовым инструкциям, не учитывая сложное взаимодействие между модальностями и пользовательскими ограничениями. Для заполнения этого пробела мы представляем OmniCap-IF — первый всеобъемлющий бенчмарк, специально разработанный для оценки способности следовать инструкциям в омни-модальном описании. OmniCap-IF включает систематическую основу, которая оценивает описания по двум измерениям: корректность формата и корректность содержания. Наш бенчмарк охватывает 50 различных типов ограничений по чисто визуальным, чисто аудиальным и аудио-визуальным модальностям, одновременно интегрируя временную привязку (Temporal Grounding) для оценки пространственно-временной точности. Обширные оценки ведущих моделей на 1 920 высококачественных образцах выявили значительные различия в производительности. Кроме того, наш анализ обнаруживает критический «компромисс между форматом и содержанием», демонстрируя, что увеличение сложности форматирования напрямую снижает способности моделей к омни-модальному рассуждению. Наконец, для продвижения этой области мы подготовили набор данных для настройки инструкций объемом 54K — OmniCap-IF-54K, и представляем OmniCaptioner-IF, который достигает заметных улучшений как в следовании сложным инструкциям, так и в общей производительности омни-модального описания.

English

While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing audio and visual streams, their ability to strictly adhere to complex, multi-faceted user instructions remains largely unexplored. Existing benchmarks primarily focus on holistic video understanding or text-only instruction following, failing to capture the intricate interplay between modalities and user constraints. To bridge this gap, we introduce OmniCap-IF, the first comprehensive benchmark specifically designed to evaluate instruction-following capabilities in omni-modal captioning. OmniCap-IF incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our benchmark encompasses 50 distinct constraint types across pure visual, pure audio, and audio-visual modalities, while integrating Temporal Grounding to assess spatio-temporal precision. Extensive evaluations of prominent models on 1,920 high-quality samples reveal significant performance disparities. Furthermore, our analysis uncovers a critical "format-content tradeoff", demonstrating that increasing formatting complexity directly degrades models' omni-modal reasoning abilities. Finally, to advance the field, we curate a 54K instruction-tuning dataset, OmniCap-IF-54K and present OmniCaptioner-IF, which achieves notable improvements in both complex instruction adherence and general omni-modal captioning performance.