OmniVideo-R1: Stärkung des audiovisuellen Denkens durch Abfrageintention und Modalitäts-Aufmerksamkeit

Zusammenfassung

Während Menschen die Welt durch verschiedene Modalitäten wahrnehmen, die synergetisch zusammenwirken, um ein ganzheitliches Verständnis ihrer Umgebung zu ermöglichen, stehen bestehende Omni-Video-Modelle nach wie vor vor erheblichen Herausforderungen bei audiovisuellen Verständnisaufgaben. In diesem Beitrag stellen wir OmniVideo-R1 vor, ein neuartiges, verstärktes Framework, das das gemischt-modale Schließen verbessert. OmniVideo-R1 befähigt Modelle, „mit omnimodalen Hinweisen zu denken“, durch zwei Schlüsselstrategien: (1) abfrageintives Grounding auf Basis selbstüberwachter Lernparadigmen und (2) modalitätsaufmerksame Fusion auf Grundlage kontrastiver Lernparadigmen. Umfangreiche Experimente auf mehreren Benchmarks zeigen, dass OmniVideo-R1 durchgängig starke Baseline-Methoden übertrifft, was seine Wirksamkeit und robusten Generalisierungsfähigkeiten unterstreicht.

English

While humans perceive the world through diverse modalities that operate synergistically to support a holistic understanding of their surroundings, existing omnivideo models still face substantial challenges on audio-visual understanding tasks. In this paper, we propose OmniVideo-R1, a novel reinforced framework that improves mixed-modality reasoning. OmniVideo-R1 empowers models to "think with omnimodal cues" by two key strategies: (1) query-intensive grounding based on self-supervised learning paradigms; and (2) modality-attentive fusion built upon contrastive learning paradigms. Extensive experiments on multiple benchmarks demonstrate that OmniVideo-R1 consistently outperforms strong baselines, highlighting its effectiveness and robust generalization capabilities.

OmniVideo-R1: Stärkung des audiovisuellen Denkens durch Abfrageintention und Modalitäts-Aufmerksamkeit

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Zusammenfassung

Support