ChatPaper.aiChatPaper

Omni-R1: Apprendimento per Rinforzo per il Ragionamento Omnimodale tramite Collaborazione a Due Sistemi

Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration

May 26, 2025
Autori: Hao Zhong, Muzhi Zhu, Zongze Du, Zheng Huang, Canyu Zhao, Mingyu Liu, Wen Wang, Hao Chen, Chunhua Shen
cs.AI

Abstract

La ragionamento video-audio a lungo orizzonte e la comprensione fine a livello di pixel impongono requisiti contrastanti ai modelli omnimodali: una copertura temporale densa richiede molti fotogrammi a bassa risoluzione, mentre un ancoraggio preciso necessita di input ad alta risoluzione. Affrontiamo questo compromesso con un'architettura a due sistemi: un Sistema di Ragionamento Globale seleziona fotogrammi chiave informativi e riformula il compito a basso costo spaziale, mentre un Sistema di Comprensione dei Dettagli esegue l'ancoraggio a livello di pixel sui frammenti selezionati ad alta risoluzione. Poiché la selezione e la riformulazione dei fotogrammi chiave "ottimali" sono ambigue e difficili da supervisionare, le formuliamo come un problema di apprendimento per rinforzo (RL) e presentiamo Omni-R1, un framework RL end-to-end basato sull'ottimizzazione delle politiche relative di gruppo. Omni-R1 addestra il Sistema di Ragionamento Globale attraverso ricompense gerarchiche ottenute tramite collaborazione online con il Sistema di Comprensione dei Dettagli, richiedendo solo un'epoca di RL su piccole suddivisioni del compito. Esperimenti su due benchmark impegnativi, ovvero la Segmentazione Audio-Visuale Referenziale (RefAVS) e la Segmentazione di Oggetti Video con Ragionamento (REVOS), mostrano che Omni-R1 non solo supera forti baseline supervisionate, ma supera anche modelli specializzati all'avanguardia, migliorando sostanzialmente la generalizzazione fuori dominio e mitigando l'allucinazione multimodale. I nostri risultati dimostrano la prima applicazione riuscita dell'RL al ragionamento omnimodale su larga scala e evidenziano un percorso scalabile verso modelli di fondazione universali.
English
Long-horizon video-audio reasoning and fine-grained pixel understanding impose conflicting requirements on omnimodal models: dense temporal coverage demands many low-resolution frames, whereas precise grounding calls for high-resolution inputs. We tackle this trade-off with a two-system architecture: a Global Reasoning System selects informative keyframes and rewrites the task at low spatial cost, while a Detail Understanding System performs pixel-level grounding on the selected high-resolution snippets. Because ``optimal'' keyframe selection and reformulation are ambiguous and hard to supervise, we formulate them as a reinforcement learning (RL) problem and present Omni-R1, an end-to-end RL framework built on Group Relative Policy Optimization. Omni-R1 trains the Global Reasoning System through hierarchical rewards obtained via online collaboration with the Detail Understanding System, requiring only one epoch of RL on small task splits. Experiments on two challenging benchmarks, namely Referring Audio-Visual Segmentation (RefAVS) and Reasoning Video Object Segmentation (REVOS), show that Omni-R1 not only surpasses strong supervised baselines but also outperforms specialized state-of-the-art models, while substantially improving out-of-domain generalization and mitigating multimodal hallucination. Our results demonstrate the first successful application of RL to large-scale omnimodal reasoning and highlight a scalable path toward universally foundation models.
PDF171May 27, 2025