Omni-R1: Verstärkendes Lernen für omnimodales Denken durch Zwei-System-Kollaboration
Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration
May 26, 2025
Autoren: Hao Zhong, Muzhi Zhu, Zongze Du, Zheng Huang, Canyu Zhao, Mingyu Liu, Wen Wang, Hao Chen, Chunhua Shen
cs.AI
Zusammenfassung
Langfristige Video-Audio-Analyse und feinkörniges Pixelverständnis
stellen widersprüchliche Anforderungen an omnimodale Modelle: Dichte zeitliche Abdeckung
erfordert viele niedrigauflösende Frames, während präzise Verankerung
hochauflösende Eingaben benötigt. Wir bewältigen diesen Zielkonflikt mit einer Zwei-System-
Architektur: Ein Globales Analyse-System wählt informative Keyframes aus und
formuliert die Aufgabe mit geringem räumlichen Aufwand neu, während ein Detailverständnis-System
die Pixelgenaue Verankerung auf den ausgewählten hochauflösenden Ausschnitten durchführt.
Da die „optimale“ Auswahl und Neuformulierung von Keyframes mehrdeutig und schwer zu überwachen ist,
formulieren wir sie als Reinforcement Learning (RL)-Problem und
präsentieren Omni-R1, ein end-to-end RL-Framework, das auf Group Relative Policy
Optimization basiert. Omni-R1 trainiert das Globale Analyse-System durch hierarchische
Belohnungen, die durch Online-Zusammenarbeit mit dem Detailverständnis-System erzielt werden,
wobei nur eine Epoche RL auf kleinen Aufgabenaufteilungen erforderlich ist.
Experimente auf zwei anspruchsvollen Benchmarks, nämlich Referring Audio-Visual
Segmentation (RefAVS) und Reasoning Video Object Segmentation (REVOS), zeigen,
dass Omni-R1 nicht nur starke überwachte Baselines übertrifft, sondern auch
spezialisierte State-of-the-Art-Modelle übertrifft, während es die Generalisierung außerhalb der Domäne erheblich verbessert
und multimodale Halluzinationen reduziert. Unsere
Ergebnisse zeigen die erste erfolgreiche Anwendung von RL auf groß angelegte
omnimodale Analyse und heben einen skalierbaren Weg hin zu universellen Foundation-
Modellen hervor.
English
Long-horizon video-audio reasoning and fine-grained pixel understanding
impose conflicting requirements on omnimodal models: dense temporal coverage
demands many low-resolution frames, whereas precise grounding calls for
high-resolution inputs. We tackle this trade-off with a two-system
architecture: a Global Reasoning System selects informative keyframes and
rewrites the task at low spatial cost, while a Detail Understanding System
performs pixel-level grounding on the selected high-resolution snippets.
Because ``optimal'' keyframe selection and reformulation are ambiguous and hard
to supervise, we formulate them as a reinforcement learning (RL) problem and
present Omni-R1, an end-to-end RL framework built on Group Relative Policy
Optimization. Omni-R1 trains the Global Reasoning System through hierarchical
rewards obtained via online collaboration with the Detail Understanding System,
requiring only one epoch of RL on small task splits.
Experiments on two challenging benchmarks, namely Referring Audio-Visual
Segmentation (RefAVS) and Reasoning Video Object Segmentation (REVOS), show
that Omni-R1 not only surpasses strong supervised baselines but also
outperforms specialized state-of-the-art models, while substantially improving
out-of-domain generalization and mitigating multimodal hallucination. Our
results demonstrate the first successful application of RL to large-scale
omnimodal reasoning and highlight a scalable path toward universally foundation
models.Summary
AI-Generated Summary