OmniVideo-R1: Reforzamiento del Razonamiento Audiovisual con Intención de Consulta y Atención a la Modalidad
OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention
February 5, 2026
Autores: Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang
cs.AI
Resumen
Mientras los humanos perciben el mundo a través de diversas modalidades que operan de forma sinérgica para sustentar una comprensión holística de su entorno, los modelos omnivideo existentes aún enfrentan desafíos sustanciales en tareas de comprensión audio-visual. En este artículo, proponemos OmniVideo-R1, un novedoso marco reforzado que mejora el razonamiento multimodal. OmniVideo-R1 dota a los modelos de la capacidad de "pensar con claves omnimodales" mediante dos estrategias clave: (1) una fundamentación intensiva de consultas basada en paradigmas de aprendizaje autosupervisado; y (2) una fusión atenta a la modalidad construida sobre paradigmas de aprendizaje contrastivo. Experimentos exhaustivos en múltiples benchmarks demuestran que OmniVideo-R1 supera consistentemente a líneas de base sólidas, resaltando su efectividad y robustas capacidades de generalización.
English
While humans perceive the world through diverse modalities that operate synergistically to support a holistic understanding of their surroundings, existing omnivideo models still face substantial challenges on audio-visual understanding tasks. In this paper, we propose OmniVideo-R1, a novel reinforced framework that improves mixed-modality reasoning. OmniVideo-R1 empowers models to "think with omnimodal cues" by two key strategies: (1) query-intensive grounding based on self-supervised learning paradigms; and (2) modality-attentive fusion built upon contrastive learning paradigms. Extensive experiments on multiple benchmarks demonstrate that OmniVideo-R1 consistently outperforms strong baselines, highlighting its effectiveness and robust generalization capabilities.