Omni-R1: Reinforcement Learning voor Omnimodale Redenering via Twee-Systeem Samenwerking
Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration
May 26, 2025
Auteurs: Hao Zhong, Muzhi Zhu, Zongze Du, Zheng Huang, Canyu Zhao, Mingyu Liu, Wen Wang, Hao Chen, Chunhua Shen
cs.AI
Samenvatting
Langetermijn video-audio redenering en fijnmazige pixelbegrip
stellen tegenstrijdige eisen aan omnimodale modellen: dichte temporele dekking
vereist veel frames met lage resolutie, terwijl precieze verankering vraagt om
inputs met hoge resolutie. Wij pakken deze afweging aan met een tweesysteem-
architectuur: een Global Reasoning System selecteert informatieve keyframes en
herschrijft de taak tegen lage ruimtelijke kosten, terwijl een Detail Understanding System
pixel-niveau verankering uitvoert op de geselecteerde snippets met hoge resolutie.
Omdat ``optimale'' keyframe-selectie en herformulering ambigu en moeilijk te
superviseren zijn, formuleren we ze als een reinforcement learning (RL) probleem en
presenteren we Omni-R1, een end-to-end RL-framework gebouwd op Group Relative Policy
Optimization. Omni-R1 traint het Global Reasoning System via hiërarchische
beloningen verkregen door online samenwerking met het Detail Understanding System,
waarbij slechts één epoch van RL op kleine taakverdelingen nodig is.
Experimenten op twee uitdagende benchmarks, namelijk Referring Audio-Visual
Segmentation (RefAVS) en Reasoning Video Object Segmentation (REVOS), tonen aan
dat Omni-R1 niet alleen sterke supervised baselines overtreft, maar ook
gespecialiseerde state-of-the-art modellen overtreft, terwijl het de generalisatie
buiten het domein aanzienlijk verbetert en multimodale hallucinatie vermindert. Onze
resultaten demonstreren de eerste succesvolle toepassing van RL op grootschalige
omnimodale redenering en belichten een schaalbare weg naar universele foundation
modellen.
English
Long-horizon video-audio reasoning and fine-grained pixel understanding
impose conflicting requirements on omnimodal models: dense temporal coverage
demands many low-resolution frames, whereas precise grounding calls for
high-resolution inputs. We tackle this trade-off with a two-system
architecture: a Global Reasoning System selects informative keyframes and
rewrites the task at low spatial cost, while a Detail Understanding System
performs pixel-level grounding on the selected high-resolution snippets.
Because ``optimal'' keyframe selection and reformulation are ambiguous and hard
to supervise, we formulate them as a reinforcement learning (RL) problem and
present Omni-R1, an end-to-end RL framework built on Group Relative Policy
Optimization. Omni-R1 trains the Global Reasoning System through hierarchical
rewards obtained via online collaboration with the Detail Understanding System,
requiring only one epoch of RL on small task splits.
Experiments on two challenging benchmarks, namely Referring Audio-Visual
Segmentation (RefAVS) and Reasoning Video Object Segmentation (REVOS), show
that Omni-R1 not only surpasses strong supervised baselines but also
outperforms specialized state-of-the-art models, while substantially improving
out-of-domain generalization and mitigating multimodal hallucination. Our
results demonstrate the first successful application of RL to large-scale
omnimodal reasoning and highlight a scalable path toward universally foundation
models.