ChatPaper.aiChatPaper

OmniCap-IF: Бенчмаркинг и улучшение способностей следования инструкциям для всестороннего видео-аннотирования

OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning

June 7, 2026
Авторы: Jiahao Wang, An Ping, Yanghai Wang, Yuanxing Zhang, Shihao Li, Hanyan Bian, Yichi Ren, Yize Zhang, Han Wang, Haowen Chen, Junze Li, Jiaqi Wang, Yiyang Hu, Zhuze Xu, Zijie Zhang, Jiaheng Liu
cs.AI

Аннотация

Хотя омни-модальные большие языковые модели (Omni-modal Large Language Models, OLLMs) продемонстрировали впечатляющие возможности в совместной обработке аудио- и визуальных потоков, их способность строго следовать сложным, многогранным пользовательским инструкциям остается в значительной степени неизученной. Существующие бенчмарки в основном сосредоточены на целостном понимании видео или следовании текстовым инструкциям, не учитывая сложное взаимодействие между модальностями и пользовательскими ограничениями. Для заполнения этого пробела мы представляем OmniCap-IF — первый всеобъемлющий бенчмарк, специально разработанный для оценки способности следовать инструкциям в омни-модальном описании. OmniCap-IF включает систематическую основу, которая оценивает описания по двум измерениям: корректность формата и корректность содержания. Наш бенчмарк охватывает 50 различных типов ограничений по чисто визуальным, чисто аудиальным и аудио-визуальным модальностям, одновременно интегрируя временную привязку (Temporal Grounding) для оценки пространственно-временной точности. Обширные оценки ведущих моделей на 1 920 высококачественных образцах выявили значительные различия в производительности. Кроме того, наш анализ обнаруживает критический «компромисс между форматом и содержанием», демонстрируя, что увеличение сложности форматирования напрямую снижает способности моделей к омни-модальному рассуждению. Наконец, для продвижения этой области мы подготовили набор данных для настройки инструкций объемом 54K — OmniCap-IF-54K, и представляем OmniCaptioner-IF, который достигает заметных улучшений как в следовании сложным инструкциям, так и в общей производительности омни-модального описания.
English
While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing audio and visual streams, their ability to strictly adhere to complex, multi-faceted user instructions remains largely unexplored. Existing benchmarks primarily focus on holistic video understanding or text-only instruction following, failing to capture the intricate interplay between modalities and user constraints. To bridge this gap, we introduce OmniCap-IF, the first comprehensive benchmark specifically designed to evaluate instruction-following capabilities in omni-modal captioning. OmniCap-IF incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our benchmark encompasses 50 distinct constraint types across pure visual, pure audio, and audio-visual modalities, while integrating Temporal Grounding to assess spatio-temporal precision. Extensive evaluations of prominent models on 1,920 high-quality samples reveal significant performance disparities. Furthermore, our analysis uncovers a critical "format-content tradeoff", demonstrating that increasing formatting complexity directly degrades models' omni-modal reasoning abilities. Finally, to advance the field, we curate a 54K instruction-tuning dataset, OmniCap-IF-54K and present OmniCaptioner-IF, which achieves notable improvements in both complex instruction adherence and general omni-modal captioning performance.