ChatPaper.aiChatPaper

Omni-R1:二重システム協調によるオムニモーダル推論のための強化学習

Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration

May 26, 2025
著者: Hao Zhong, Muzhi Zhu, Zongze Du, Zheng Huang, Canyu Zhao, Mingyu Liu, Wen Wang, Hao Chen, Chunhua Shen
cs.AI

要旨

長時間にわたるビデオ-オーディオ推論と細粒度のピクセル理解は、オムニモーダルモデルに対して相反する要件を課します:密な時間的カバレッジは多くの低解像度フレームを要求する一方で、正確なグラウンディングは高解像度の入力を必要とします。このトレードオフに対処するために、我々は二つのシステムアーキテクチャを採用します:グローバル推論システムが情報量の多いキーフレームを選択し、低空間コストでタスクを再構築し、詳細理解システムが選択された高解像度のスニペットに対してピクセルレベルのグラウンディングを実行します。「最適な」キーフレーム選択と再構築は曖昧で監視が難しいため、我々はこれらを強化学習(RL)問題として定式化し、Group Relative Policy Optimizationに基づくエンドツーエンドのRLフレームワークであるOmni-R1を提案します。Omni-R1は、詳細理解システムとのオンライン協力を通じて得られる階層的な報酬を用いてグローバル推論システムを訓練し、小さなタスク分割に対して1エポックのRLのみを必要とします。 2つの挑戦的なベンチマーク、すなわちReferring Audio-Visual Segmentation(RefAVS)とReasoning Video Object Segmentation(REVOS)での実験により、Omni-R1が強力な教師ありベースラインを上回るだけでなく、専門的な最先端モデルをも凌駕し、ドメイン外の汎化を大幅に改善し、マルチモーダルハルシネーションを軽減することが示されました。我々の結果は、大規模なオムニモーダル推論へのRLの初めての成功した応用を示し、普遍的な基盤モデルへのスケーラブルな道筋を強調しています。
English
Long-horizon video-audio reasoning and fine-grained pixel understanding impose conflicting requirements on omnimodal models: dense temporal coverage demands many low-resolution frames, whereas precise grounding calls for high-resolution inputs. We tackle this trade-off with a two-system architecture: a Global Reasoning System selects informative keyframes and rewrites the task at low spatial cost, while a Detail Understanding System performs pixel-level grounding on the selected high-resolution snippets. Because ``optimal'' keyframe selection and reformulation are ambiguous and hard to supervise, we formulate them as a reinforcement learning (RL) problem and present Omni-R1, an end-to-end RL framework built on Group Relative Policy Optimization. Omni-R1 trains the Global Reasoning System through hierarchical rewards obtained via online collaboration with the Detail Understanding System, requiring only one epoch of RL on small task splits. Experiments on two challenging benchmarks, namely Referring Audio-Visual Segmentation (RefAVS) and Reasoning Video Object Segmentation (REVOS), show that Omni-R1 not only surpasses strong supervised baselines but also outperforms specialized state-of-the-art models, while substantially improving out-of-domain generalization and mitigating multimodal hallucination. Our results demonstrate the first successful application of RL to large-scale omnimodal reasoning and highlight a scalable path toward universally foundation models.

Summary

AI-Generated Summary

PDF161May 27, 2025