ChatPaper.aiChatPaper

OmniVideo-R1: Reforçando o Raciocínio Áudio-visual com Intenção de Consulta e Atenção à Modalidade

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

February 5, 2026
Autores: Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang
cs.AI

Resumo

Embora os seres humanos percebam o mundo por meio de modalidades diversas que operam sinergicamente para sustentar uma compreensão holística do seu entorno, os modelos omnivídeo existentes ainda enfrentam desafios substanciais em tarefas de compreensão áudio-visual. Neste artigo, propomos o OmniVideo-R1, uma nova estrutura reforçada que aprimora o raciocínio de multimodalidade mista. O OmniVideo-R1 capacita os modelos a "pensar com pistas omnimodais" por meio de duas estratégias principais: (1) fundamentação intensiva em consultas baseada em paradigmas de aprendizagem auto-supervisionada; e (2) fusão atenta à modalidade construída sobre paradigmas de aprendizagem contrastiva. Experimentos extensivos em múltiplos benchmarks demonstram que o OmniVideo-R1 supera consistentemente linhas de base robustas, destacando sua eficácia e capacidades de generalização robustas.
English
While humans perceive the world through diverse modalities that operate synergistically to support a holistic understanding of their surroundings, existing omnivideo models still face substantial challenges on audio-visual understanding tasks. In this paper, we propose OmniVideo-R1, a novel reinforced framework that improves mixed-modality reasoning. OmniVideo-R1 empowers models to "think with omnimodal cues" by two key strategies: (1) query-intensive grounding based on self-supervised learning paradigms; and (2) modality-attentive fusion built upon contrastive learning paradigms. Extensive experiments on multiple benchmarks demonstrate that OmniVideo-R1 consistently outperforms strong baselines, highlighting its effectiveness and robust generalization capabilities.
PDF123March 31, 2026