Omni-R1: 양 시스템 협업을 통한 전모달 추론을 위한 강화 학습
Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration
May 26, 2025
저자: Hao Zhong, Muzhi Zhu, Zongze Du, Zheng Huang, Canyu Zhao, Mingyu Liu, Wen Wang, Hao Chen, Chunhua Shen
cs.AI
초록
장기간 비디오-오디오 추론과 세밀한 픽셀 이해는
옴니모달 모델에 상충되는 요구사항을 부과합니다: 밀집된 시간적 커버리지는
많은 저해상도 프레임을 요구하는 반면, 정확한 그라운딩은
고해상도 입력을 필요로 합니다. 우리는 이러한 트레이드오프를
두 시스템 아키텍처로 해결합니다: 글로벌 추론 시스템은 정보가 풍부한 키프레임을 선택하고
낮은 공간 비용으로 작업을 재구성하며, 디테일 이해 시스템은
선택된 고해상도 스니펫에 대해 픽셀 수준의 그라운딩을 수행합니다.
"최적의" 키프레임 선택과 재구성은 모호하고 감독하기 어렵기 때문에,
우리는 이를 강화 학습(RL) 문제로 공식화하고
Group Relative Policy Optimization을 기반으로 한 종단간 RL 프레임워크인 Omni-R1을 제시합니다.
Omni-R1은 디테일 이해 시스템과의 온라인 협력을 통해 얻은 계층적 보상을 통해
글로벌 추론 시스템을 훈련시키며, 작은 작업 분할에 대해 단 한 번의 RL 에포크만 필요로 합니다.
Referring Audio-Visual Segmentation (RefAVS)와 Reasoning Video Object Segmentation (REVOS)라는
두 가지 도전적인 벤치마크에서의 실험은 Omni-R1이 강력한 지도 학습 베이스라인을 능가할 뿐만 아니라
전문화된 최첨단 모델들도 능가하며, 도메인 외 일반화를 크게 개선하고
다중모드 환상을 완화하는 것을 보여줍니다. 우리의 결과는
대규모 옴니모달 추론에 RL을 성공적으로 적용한 첫 사례를 보여주며,
보편적 파운데이션 모델로 나아가는 확장 가능한 경로를 강조합니다.
English
Long-horizon video-audio reasoning and fine-grained pixel understanding
impose conflicting requirements on omnimodal models: dense temporal coverage
demands many low-resolution frames, whereas precise grounding calls for
high-resolution inputs. We tackle this trade-off with a two-system
architecture: a Global Reasoning System selects informative keyframes and
rewrites the task at low spatial cost, while a Detail Understanding System
performs pixel-level grounding on the selected high-resolution snippets.
Because ``optimal'' keyframe selection and reformulation are ambiguous and hard
to supervise, we formulate them as a reinforcement learning (RL) problem and
present Omni-R1, an end-to-end RL framework built on Group Relative Policy
Optimization. Omni-R1 trains the Global Reasoning System through hierarchical
rewards obtained via online collaboration with the Detail Understanding System,
requiring only one epoch of RL on small task splits.
Experiments on two challenging benchmarks, namely Referring Audio-Visual
Segmentation (RefAVS) and Reasoning Video Object Segmentation (REVOS), show
that Omni-R1 not only surpasses strong supervised baselines but also
outperforms specialized state-of-the-art models, while substantially improving
out-of-domain generalization and mitigating multimodal hallucination. Our
results demonstrate the first successful application of RL to large-scale
omnimodal reasoning and highlight a scalable path toward universally foundation
models.Summary
AI-Generated Summary