OmniVideo-R1: Reforçando o Raciocínio Áudio-visual com Intenção de Consulta e Atenção à Modalidade

Resumo

Embora os seres humanos percebam o mundo por meio de modalidades diversas que operam sinergicamente para sustentar uma compreensão holística do seu entorno, os modelos omnivídeo existentes ainda enfrentam desafios substanciais em tarefas de compreensão áudio-visual. Neste artigo, propomos o OmniVideo-R1, uma nova estrutura reforçada que aprimora o raciocínio de multimodalidade mista. O OmniVideo-R1 capacita os modelos a "pensar com pistas omnimodais" por meio de duas estratégias principais: (1) fundamentação intensiva em consultas baseada em paradigmas de aprendizagem auto-supervisionada; e (2) fusão atenta à modalidade construída sobre paradigmas de aprendizagem contrastiva. Experimentos extensivos em múltiplos benchmarks demonstram que o OmniVideo-R1 supera consistentemente linhas de base robustas, destacando sua eficácia e capacidades de generalização robustas.

English

While humans perceive the world through diverse modalities that operate synergistically to support a holistic understanding of their surroundings, existing omnivideo models still face substantial challenges on audio-visual understanding tasks. In this paper, we propose OmniVideo-R1, a novel reinforced framework that improves mixed-modality reasoning. OmniVideo-R1 empowers models to "think with omnimodal cues" by two key strategies: (1) query-intensive grounding based on self-supervised learning paradigms; and (2) modality-attentive fusion built upon contrastive learning paradigms. Extensive experiments on multiple benchmarks demonstrate that OmniVideo-R1 consistently outperforms strong baselines, highlighting its effectiveness and robust generalization capabilities.

OmniVideo-R1: Reforçando o Raciocínio Áudio-visual com Intenção de Consulta e Atenção à Modalidade

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Resumo

Support