OmniCap-IF : Évaluation et amélioration des capacités de suivi d'instructions pour le sous-titrage vidéo omni

Résumé

Alors que les modèles de langage omnimodaux (OLLMs) ont démontré des capacités impressionnantes pour traiter conjointement des flux audio et visuels, leur aptitude à respecter strictement des instructions utilisateur complexes et multidimensionnelles reste largement inexplorée. Les référentiels existants se concentrent principalement sur la compréhension holistique de la vidéo ou le suivi d'instructions purement textuelles, sans parvenir à capturer l'interaction subtile entre les modalités et les contraintes utilisateur. Pour combler cette lacune, nous présentons OmniCap-IF, le premier référentiel complet spécialement conçu pour évaluer les capacités de suivi d'instructions dans la génération de légendes omnimodales. OmniCap-IF intègre un cadre systématique qui évalue les légendes selon deux dimensions : la correction du format et la correction du contenu. Notre référentiel englobe 50 types de contraintes distincts couvrant les modalités purement visuelles, purement audio et audio-visuelles, tout en intégrant l'ancrage temporel pour évaluer la précision spatio-temporelle. Des évaluations approfondies de modèles de premier plan sur 1 920 échantillons de haute qualité révèlent des disparités de performance significatives. De plus, notre analyse met en lumière un « compromis format-contenu » critique, démontrant qu'une complexité accrue du format dégrade directement les capacités de raisonnement omnimodal des modèles. Enfin, pour faire avancer le domaine, nous constituons un ensemble de données d'ajustement d'instructions de 54 000 échantillons, OmniCap-IF-54K, et présentons OmniCaptioner-IF, qui atteint des améliorations notables à la fois dans le respect d'instructions complexes et dans la performance générale de génération de légendes omnimodales.

English

While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing audio and visual streams, their ability to strictly adhere to complex, multi-faceted user instructions remains largely unexplored. Existing benchmarks primarily focus on holistic video understanding or text-only instruction following, failing to capture the intricate interplay between modalities and user constraints. To bridge this gap, we introduce OmniCap-IF, the first comprehensive benchmark specifically designed to evaluate instruction-following capabilities in omni-modal captioning. OmniCap-IF incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our benchmark encompasses 50 distinct constraint types across pure visual, pure audio, and audio-visual modalities, while integrating Temporal Grounding to assess spatio-temporal precision. Extensive evaluations of prominent models on 1,920 high-quality samples reveal significant performance disparities. Furthermore, our analysis uncovers a critical "format-content tradeoff", demonstrating that increasing formatting complexity directly degrades models' omni-modal reasoning abilities. Finally, to advance the field, we curate a 54K instruction-tuning dataset, OmniCap-IF-54K and present OmniCaptioner-IF, which achieves notable improvements in both complex instruction adherence and general omni-modal captioning performance.