OmniCap-IF: Benchmarking und Verbesserung der Fähigkeiten zur Befolgung von Anweisungen für Omni-Video-Captioning

Zusammenfassung

Obwohl Omni-modale Große Sprachmodelle (OLLMs) beeindruckende Fähigkeiten bei der gemeinsamen Verarbeitung von Audio- und Videoströmen gezeigt haben, bleibt ihre Fähigkeit, komplexe, vielschichtige Benutzeranweisungen genau zu befolgen, weitgehend unerforscht. Bestehende Benchmarks konzentrieren sich hauptsächlich auf ganzheitliches Videoverständnis oder textbasierte Anweisungsbefolgung und erfassen nicht das komplexe Zusammenspiel zwischen Modalitäten und Benutzervorgaben. Um diese Lücke zu schließen, stellen wir OmniCap-IF vor, den ersten umfassenden Benchmark, der speziell zur Bewertung der Anweisungsbefolgungsfähigkeiten im omni-modalen Beschriften entwickelt wurde. OmniCap-IF umfasst ein systematisches Framework, das Bildunterschriften entlang zweier Dimensionen bewertet: Formatkorrektheit und Inhaltskorrektheit. Unser Benchmark umfasst 50 verschiedene Einschränkungstypen über rein visuelle, rein auditive und audio-visuelle Modalitäten hinweg und integriert zeitliche Verankerung zur Bewertung der räumlich-zeitlichen Präzision. Umfangreiche Auswertungen prominenter Modelle anhand von 1.920 hochwertigen Stichproben zeigen erhebliche Leistungsunterschiede auf. Darüber hinaus deckt unsere Analyse einen kritischen „Format-Inhalts-Zielkonflikt“ auf, der zeigt, dass eine zunehmende Formatierungskomplexität die omni-modalen Denkfähigkeiten der Modelle direkt beeinträchtigt. Abschließend stellen wir zur Weiterentwicklung des Feldes einen 54K großen Anweisungsoptimierungsdatensatz, OmniCap-IF-54K, zusammen und präsentieren OmniCaptioner-IF, das sowohl bei der Einhaltung komplexer Anweisungen als auch bei der allgemeinen omni-modalen Beschriftungsleistung bemerkenswerte Verbesserungen erzielt.

English

While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing audio and visual streams, their ability to strictly adhere to complex, multi-faceted user instructions remains largely unexplored. Existing benchmarks primarily focus on holistic video understanding or text-only instruction following, failing to capture the intricate interplay between modalities and user constraints. To bridge this gap, we introduce OmniCap-IF, the first comprehensive benchmark specifically designed to evaluate instruction-following capabilities in omni-modal captioning. OmniCap-IF incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our benchmark encompasses 50 distinct constraint types across pure visual, pure audio, and audio-visual modalities, while integrating Temporal Grounding to assess spatio-temporal precision. Extensive evaluations of prominent models on 1,920 high-quality samples reveal significant performance disparities. Furthermore, our analysis uncovers a critical "format-content tradeoff", demonstrating that increasing formatting complexity directly degrades models' omni-modal reasoning abilities. Finally, to advance the field, we curate a 54K instruction-tuning dataset, OmniCap-IF-54K and present OmniCaptioner-IF, which achieves notable improvements in both complex instruction adherence and general omni-modal captioning performance.