OmniVideo-R1: Усиление аудиовизуального анализа через учет намерений запросов и модального внимания

Аннотация

В то время как человек воспринимает мир через различные модальности, которые действуют синергетически, обеспечивая целостное понимание окружающей среды, существующие омнивидео-модели по-прежнему сталкиваются со значительными трудностями в задачах аудиовизуального понимания. В данной статье мы предлагаем OmniVideo-R1 — новую усиленную архитектуру, которая улучшает смешанную модальную логику. OmniVideo-R1 позволяет моделям «мыслить с помощью омнимодальных сигналов» за счёт двух ключевых стратегий: (1) интенсивного запросного grounding'а на основе парадигм самообучения и (2) модально-внимательного слияния, построенного на парадигмах контрастного обучения. Многочисленные эксперименты на различных бенчмарках показывают, что OmniVideo-R1 стабильно превосходит сильные базовые модели, что подчёркивает его эффективность и robustные обобщающие способности.

English

While humans perceive the world through diverse modalities that operate synergistically to support a holistic understanding of their surroundings, existing omnivideo models still face substantial challenges on audio-visual understanding tasks. In this paper, we propose OmniVideo-R1, a novel reinforced framework that improves mixed-modality reasoning. OmniVideo-R1 empowers models to "think with omnimodal cues" by two key strategies: (1) query-intensive grounding based on self-supervised learning paradigms; and (2) modality-attentive fusion built upon contrastive learning paradigms. Extensive experiments on multiple benchmarks demonstrate that OmniVideo-R1 consistently outperforms strong baselines, highlighting its effectiveness and robust generalization capabilities.

OmniVideo-R1: Усиление аудиовизуального анализа через учет намерений запросов и модального внимания

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Аннотация

Support