Omni-R1 : Apprentissage par renforcement pour le raisonnement omnimodal via une collaboration à deux systèmes
Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration
May 26, 2025
Auteurs: Hao Zhong, Muzhi Zhu, Zongze Du, Zheng Huang, Canyu Zhao, Mingyu Liu, Wen Wang, Hao Chen, Chunhua Shen
cs.AI
Résumé
La compréhension fine des pixels et le raisonnement audio-vidéo à long terme imposent des exigences contradictoires aux modèles omnimodaux : une couverture temporelle dense nécessite de nombreuses images à basse résolution, tandis qu'un ancrage précis exige des entrées à haute résolution. Nous abordons ce compromis avec une architecture à deux systèmes : un Système de Raisonnement Global sélectionne des images clés informatives et reformule la tâche à faible coût spatial, tandis qu'un Système de Compréhension des Détails effectue un ancrage au niveau des pixels sur les extraits sélectionnés à haute résolution. Étant donné que la sélection « optimale » des images clés et leur reformulation sont ambiguës et difficiles à superviser, nous les formulons comme un problème d'apprentissage par renforcement (RL) et présentons Omni-R1, un cadre RL de bout en bout basé sur l'Optimisation de Politique Relative par Groupes. Omni-R1 entraîne le Système de Raisonnement Global grâce à des récompenses hiérarchiques obtenues via une collaboration en ligne avec le Système de Compréhension des Détails, ne nécessitant qu'une seule époque de RL sur de petits sous-ensembles de tâches.
Les expériences sur deux benchmarks exigeants, à savoir la Segmentation Audio-Visuelle Référencée (RefAVS) et la Segmentation d'Objets Vidéo par Raisonnement (REVOS), montrent qu'Omni-R1 dépasse non seulement des bases de référence supervisées solides, mais surpasse également des modèles spécialisés de pointe, tout en améliorant considérablement la généralisation hors domaine et en atténuant les hallucinations multimodales. Nos résultats démontrent la première application réussie de l'apprentissage par renforcement à grande échelle pour le raisonnement omnimodal et mettent en lumière une voie évolutive vers des modèles de fondation universels.
English
Long-horizon video-audio reasoning and fine-grained pixel understanding
impose conflicting requirements on omnimodal models: dense temporal coverage
demands many low-resolution frames, whereas precise grounding calls for
high-resolution inputs. We tackle this trade-off with a two-system
architecture: a Global Reasoning System selects informative keyframes and
rewrites the task at low spatial cost, while a Detail Understanding System
performs pixel-level grounding on the selected high-resolution snippets.
Because ``optimal'' keyframe selection and reformulation are ambiguous and hard
to supervise, we formulate them as a reinforcement learning (RL) problem and
present Omni-R1, an end-to-end RL framework built on Group Relative Policy
Optimization. Omni-R1 trains the Global Reasoning System through hierarchical
rewards obtained via online collaboration with the Detail Understanding System,
requiring only one epoch of RL on small task splits.
Experiments on two challenging benchmarks, namely Referring Audio-Visual
Segmentation (RefAVS) and Reasoning Video Object Segmentation (REVOS), show
that Omni-R1 not only surpasses strong supervised baselines but also
outperforms specialized state-of-the-art models, while substantially improving
out-of-domain generalization and mitigating multimodal hallucination. Our
results demonstrate the first successful application of RL to large-scale
omnimodal reasoning and highlight a scalable path toward universally foundation
models.Summary
AI-Generated Summary