ChatPaper.aiChatPaper

OmniVideo-R1: Stärkung des audiovisuellen Denkens durch Abfrageintention und Modalitäts-Aufmerksamkeit

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

February 5, 2026
Autoren: Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang
cs.AI

Zusammenfassung

Während Menschen die Welt durch verschiedene Modalitäten wahrnehmen, die synergetisch zusammenwirken, um ein ganzheitliches Verständnis ihrer Umgebung zu ermöglichen, stehen bestehende Omni-Video-Modelle nach wie vor vor erheblichen Herausforderungen bei audiovisuellen Verständnisaufgaben. In diesem Beitrag stellen wir OmniVideo-R1 vor, ein neuartiges, verstärktes Framework, das das gemischt-modale Schließen verbessert. OmniVideo-R1 befähigt Modelle, „mit omnimodalen Hinweisen zu denken“, durch zwei Schlüsselstrategien: (1) abfrageintives Grounding auf Basis selbstüberwachter Lernparadigmen und (2) modalitätsaufmerksame Fusion auf Grundlage kontrastiver Lernparadigmen. Umfangreiche Experimente auf mehreren Benchmarks zeigen, dass OmniVideo-R1 durchgängig starke Baseline-Methoden übertrifft, was seine Wirksamkeit und robusten Generalisierungsfähigkeiten unterstreicht.
English
While humans perceive the world through diverse modalities that operate synergistically to support a holistic understanding of their surroundings, existing omnivideo models still face substantial challenges on audio-visual understanding tasks. In this paper, we propose OmniVideo-R1, a novel reinforced framework that improves mixed-modality reasoning. OmniVideo-R1 empowers models to "think with omnimodal cues" by two key strategies: (1) query-intensive grounding based on self-supervised learning paradigms; and (2) modality-attentive fusion built upon contrastive learning paradigms. Extensive experiments on multiple benchmarks demonstrate that OmniVideo-R1 consistently outperforms strong baselines, highlighting its effectiveness and robust generalization capabilities.
PDF123March 16, 2026