OmniVideo-R1: Versterking van Audiovisueel Redeneren met Query Intentie en Modaliteitsaandacht

Samenvatting

Hoewel mensen de wereld waarnemen via diverse modaliteiten die synergetisch samenwerken om een holistisch begrip van hun omgeving mogelijk te maken, kampen bestaande omnivideo-modellen nog steeds met aanzienlijke uitdagingen bij audio-visuele begripstaken. In dit artikel introduceren we OmniVideo-R1, een nieuw versterkt raamwerk dat de mixed-modality redeneervaardigheden verbetert. OmniVideo-R1 stelt modellen in staat om "te denken met omnimodale aanwijzingen" via twee kernstrategieën: (1) query-intensieve grounding gebaseerd op zelfgesuperviseerde leerparadigma's; en (2) modaliteit-attentieve fusie gebouwd op contrastieve leerparadigma's. Uitgebreide experimenten op meerdere benchmarks tonen aan dat OmniVideo-R1 consequent sterke baseline-modellen overtreft, wat de effectiviteit en robuuste generalisatiecapaciteiten ervan onderstreept.

English

While humans perceive the world through diverse modalities that operate synergistically to support a holistic understanding of their surroundings, existing omnivideo models still face substantial challenges on audio-visual understanding tasks. In this paper, we propose OmniVideo-R1, a novel reinforced framework that improves mixed-modality reasoning. OmniVideo-R1 empowers models to "think with omnimodal cues" by two key strategies: (1) query-intensive grounding based on self-supervised learning paradigms; and (2) modality-attentive fusion built upon contrastive learning paradigms. Extensive experiments on multiple benchmarks demonstrate that OmniVideo-R1 consistently outperforms strong baselines, highlighting its effectiveness and robust generalization capabilities.

OmniVideo-R1: Versterking van Audiovisueel Redeneren met Query Intentie en Modaliteitsaandacht

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Samenvatting

Support