OmniVideo-R1: Rafforzare il ragionamento audiovisivo con l'intenzione di query e l'attenzione alla modalità
OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention
February 5, 2026
Autori: Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang
cs.AI
Abstract
Mentre gli esseri umani percezionano il mondo attraverso modalità diverse che operano sinergicamente per supportare una comprensione olistica dell'ambiente circostante, i modelli omnivideo esistenti affrontano ancora sfide sostanziali nelle attività di comprensione audiovisiva. In questo articolo, proponiamo OmniVideo-R1, un innovativo framework rinforzato che migliora il ragionamento multimodale. OmniVideo-R1 potenzia i modelli permettendo loro di "pensare con segnali omnimali" attraverso due strategie chiave: (1) grounding intensivo di query basato su paradigmi di apprendimento auto-supervisionato; e (2) fusione modale-attentiva costruita su paradigmi di apprendimento contrastivo. Esperimenti estesi su molteplici benchmark dimostrano che OmniVideo-R1 supera costantemente baseline solide, evidenziandone l'efficacia e le robuste capacità di generalizzazione.
English
While humans perceive the world through diverse modalities that operate synergistically to support a holistic understanding of their surroundings, existing omnivideo models still face substantial challenges on audio-visual understanding tasks. In this paper, we propose OmniVideo-R1, a novel reinforced framework that improves mixed-modality reasoning. OmniVideo-R1 empowers models to "think with omnimodal cues" by two key strategies: (1) query-intensive grounding based on self-supervised learning paradigms; and (2) modality-attentive fusion built upon contrastive learning paradigms. Extensive experiments on multiple benchmarks demonstrate that OmniVideo-R1 consistently outperforms strong baselines, highlighting its effectiveness and robust generalization capabilities.