OmniVideo-R1: Reforzamiento del Razonamiento Audiovisual con Intención de Consulta y Atención a la Modalidad

Resumen

Mientras los humanos perciben el mundo a través de diversas modalidades que operan de forma sinérgica para sustentar una comprensión holística de su entorno, los modelos omnivideo existentes aún enfrentan desafíos sustanciales en tareas de comprensión audio-visual. En este artículo, proponemos OmniVideo-R1, un novedoso marco reforzado que mejora el razonamiento multimodal. OmniVideo-R1 dota a los modelos de la capacidad de "pensar con claves omnimodales" mediante dos estrategias clave: (1) una fundamentación intensiva de consultas basada en paradigmas de aprendizaje autosupervisado; y (2) una fusión atenta a la modalidad construida sobre paradigmas de aprendizaje contrastivo. Experimentos exhaustivos en múltiples benchmarks demuestran que OmniVideo-R1 supera consistentemente a líneas de base sólidas, resaltando su efectividad y robustas capacidades de generalización.

English

While humans perceive the world through diverse modalities that operate synergistically to support a holistic understanding of their surroundings, existing omnivideo models still face substantial challenges on audio-visual understanding tasks. In this paper, we propose OmniVideo-R1, a novel reinforced framework that improves mixed-modality reasoning. OmniVideo-R1 empowers models to "think with omnimodal cues" by two key strategies: (1) query-intensive grounding based on self-supervised learning paradigms; and (2) modality-attentive fusion built upon contrastive learning paradigms. Extensive experiments on multiple benchmarks demonstrate that OmniVideo-R1 consistently outperforms strong baselines, highlighting its effectiveness and robust generalization capabilities.