Omni-R1: 다중모달 추론을 위한 통합 생성 패러다임을 향하여
Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning
January 14, 2026
저자: Dongjie Cheng, Yongqi Li, Zhixin Ma, Hongru Cai, Yupeng Hu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI
초록
다중모달 대규모 언어 모델(MLLMs)은 다중모달 추론 분야에서 상당한 진전을 이루고 있습니다. 초기 접근법은 순수 텍스트 기반 추론에 중점을 두었습니다. 보다 최근 연구들은 추론 단계에 다중모달 정보를 통합하고 있지만, 종종 단일 작업 특화 추론 패턴을 따르기 때문에 다양한 다중모달 작업 간 일반화 성능이 제한됩니다. 실제로 이미지 내 특정 영역을 확대하거나 객체를 표시하는 것과 같이 다양한 추론 기술을 요구하는 다중모달 작업이 많이 존재합니다. 이를 해결하기 위해 우리는 추론 과정에서 중간 이미지를 생성함으로써 다양한 다중모달 추론 기술을 통합하는 통합 생성형 다중모달 추론을 제안합니다. 우리는 인식 정렬 손실과 인식 보상을 특징으로 하는 2단계 SFT+RL 프레임워크인 Omni-R1을 통해 이 패러다임을 구체화하며, 이를 통해 기능적 이미지 생성을 가능하게 합니다. 또한 텍스트 전용 추론 데이터로부터 단계별 시각화를 부트스트래핑하여 다중모달 주석 필요성을 제거한 Omni-R1-Zero를 소개합니다. 실험 결과, Omni-R1은 다양한 다중모달 작업에 걸쳐 통합 생성 추론을 달성했으며, Omni-R1-Zero는 평균적으로 Omni-R1에 필적하거나 이를 능가하는 성능을 보여 생성형 다중모달 추론의 유망한 방향을 제시합니다.
English
Multimodal Large Language Models (MLLMs) are making significant progress in multimodal reasoning. Early approaches focus on pure text-based reasoning. More recent studies have incorporated multimodal information into the reasoning steps; however, they often follow a single task-specific reasoning pattern, which limits their generalizability across various multimodal tasks. In fact, there are numerous multimodal tasks requiring diverse reasoning skills, such as zooming in on a specific region or marking an object within an image. To address this, we propose unified generative multimodal reasoning, which unifies diverse multimodal reasoning skills by generating intermediate images during the reasoning process. We instantiate this paradigm with Omni-R1, a two-stage SFT+RL framework featuring perception alignment loss and perception reward, thereby enabling functional image generation. Additionally, we introduce Omni-R1-Zero, which eliminates the need for multimodal annotations by bootstrapping step-wise visualizations from text-only reasoning data. Empirical results show that Omni-R1 achieves unified generative reasoning across a wide range of multimodal tasks, and Omni-R1-Zero can match or even surpass Omni-R1 on average, suggesting a promising direction for generative multimodal reasoning.