Omni-R1: Apprendimento per Rinforzo per il Ragionamento Omnimodale tramite Collaborazione a Due Sistemi
Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration
May 26, 2025
Autori: Hao Zhong, Muzhi Zhu, Zongze Du, Zheng Huang, Canyu Zhao, Mingyu Liu, Wen Wang, Hao Chen, Chunhua Shen
cs.AI
Abstract
La ragionamento video-audio a lungo orizzonte e la comprensione fine a livello di pixel impongono requisiti contrastanti ai modelli omnimodali: una copertura temporale densa richiede molti fotogrammi a bassa risoluzione, mentre un ancoraggio preciso necessita di input ad alta risoluzione. Affrontiamo questo compromesso con un'architettura a due sistemi: un Sistema di Ragionamento Globale seleziona fotogrammi chiave informativi e riformula il compito a basso costo spaziale, mentre un Sistema di Comprensione dei Dettagli esegue l'ancoraggio a livello di pixel sui frammenti selezionati ad alta risoluzione. Poiché la selezione e la riformulazione dei fotogrammi chiave "ottimali" sono ambigue e difficili da supervisionare, le formuliamo come un problema di apprendimento per rinforzo (RL) e presentiamo Omni-R1, un framework RL end-to-end basato sull'ottimizzazione delle politiche relative di gruppo. Omni-R1 addestra il Sistema di Ragionamento Globale attraverso ricompense gerarchiche ottenute tramite collaborazione online con il Sistema di Comprensione dei Dettagli, richiedendo solo un'epoca di RL su piccole suddivisioni del compito.
Esperimenti su due benchmark impegnativi, ovvero la Segmentazione Audio-Visuale Referenziale (RefAVS) e la Segmentazione di Oggetti Video con Ragionamento (REVOS), mostrano che Omni-R1 non solo supera forti baseline supervisionate, ma supera anche modelli specializzati all'avanguardia, migliorando sostanzialmente la generalizzazione fuori dominio e mitigando l'allucinazione multimodale. I nostri risultati dimostrano la prima applicazione riuscita dell'RL al ragionamento omnimodale su larga scala e evidenziano un percorso scalabile verso modelli di fondazione universali.
English
Long-horizon video-audio reasoning and fine-grained pixel understanding
impose conflicting requirements on omnimodal models: dense temporal coverage
demands many low-resolution frames, whereas precise grounding calls for
high-resolution inputs. We tackle this trade-off with a two-system
architecture: a Global Reasoning System selects informative keyframes and
rewrites the task at low spatial cost, while a Detail Understanding System
performs pixel-level grounding on the selected high-resolution snippets.
Because ``optimal'' keyframe selection and reformulation are ambiguous and hard
to supervise, we formulate them as a reinforcement learning (RL) problem and
present Omni-R1, an end-to-end RL framework built on Group Relative Policy
Optimization. Omni-R1 trains the Global Reasoning System through hierarchical
rewards obtained via online collaboration with the Detail Understanding System,
requiring only one epoch of RL on small task splits.
Experiments on two challenging benchmarks, namely Referring Audio-Visual
Segmentation (RefAVS) and Reasoning Video Object Segmentation (REVOS), show
that Omni-R1 not only surpasses strong supervised baselines but also
outperforms specialized state-of-the-art models, while substantially improving
out-of-domain generalization and mitigating multimodal hallucination. Our
results demonstrate the first successful application of RL to large-scale
omnimodal reasoning and highlight a scalable path toward universally foundation
models.