OmniVideo-R1 : Renforcement du raisonnement audio-visuel par l'intention de requête et l'attention modale

Résumé

Si les humains perçoivent le monde à travers des modalités diverses qui opèrent de manière synergique pour soutenir une compréhension holistique de leur environnement, les modèles omnividéo existants rencontrent encore des défis substantiels dans les tâches de compréhension audio-visuelle. Dans cet article, nous proposons OmniVideo-R1, un nouveau cadre renforcé qui améliore le raisonnement multimodal. OmniVideo-R1 permet aux modèles de « raisonner avec des indices omnimodaux » grâce à deux stratégies clés : (1) un ancrage intensif par requêtes basé sur des paradigmes d'apprentissage auto-supervisé ; et (2) une fusion attentive aux modalités construite sur des paradigmes d'apprentissage contrastif. Des expériences approfondies sur plusieurs benchmarks démontrent qu'OmniVideo-R1 surpasse systématiquement des bases de référence solides, soulignant son efficacité et ses capacités de généralisation robustes.

English

While humans perceive the world through diverse modalities that operate synergistically to support a holistic understanding of their surroundings, existing omnivideo models still face substantial challenges on audio-visual understanding tasks. In this paper, we propose OmniVideo-R1, a novel reinforced framework that improves mixed-modality reasoning. OmniVideo-R1 empowers models to "think with omnimodal cues" by two key strategies: (1) query-intensive grounding based on self-supervised learning paradigms; and (2) modality-attentive fusion built upon contrastive learning paradigms. Extensive experiments on multiple benchmarks demonstrate that OmniVideo-R1 consistently outperforms strong baselines, highlighting its effectiveness and robust generalization capabilities.

OmniVideo-R1 : Renforcement du raisonnement audio-visuel par l'intention de requête et l'attention modale

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Résumé

Support