LMM-R1: 2단계 규칙 기반 강화 학습을 통해 3B 규모의 대형 언어 모델에 강력한 추론 능력 부여
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
March 10, 2025
저자: Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang
cs.AI
초록
대형 멀티모달 모델(LMMs)의 추론 능력 향상은 시각적 인지와 논리적 추론 간의 복잡한 상호작용으로 인해 독특한 도전 과제에 직면해 있으며, 특히 3B 파라미터 규모의 컴팩트 아키텍처에서는 아키텍처적 제약으로 인해 추론 능력과 모달리티 정렬이 제한됩니다.
규칙 기반 강화 학습(RL)은 텍스트 전용 도메인에서 뛰어난 성능을 보이지만, 이를 멀티모달로 확장할 때 두 가지 주요 장벽에 직면합니다: (1) 모호한 답변과 복잡한 추론 예제의 부족으로 인한 데이터 한계, 그리고 (2) 멀티모달 사전 학습으로 인한 기초 추론 능력의 저하.
이러한 문제를 해결하기 위해, 우리는 \method를 제안합니다. 이는 규칙 기반 RL을 멀티모달 추론에 적용하기 위한 두 단계 프레임워크로, 먼저 기초 추론 강화(FRE) 단계에서 텍스트 전용 데이터를 사용해 규칙 기반 RL로 추론 능력을 강화한 후, 멀티모달 일반화 훈련(MGT) 단계에서 이러한 추론 능력을 멀티모달 도메인으로 확장합니다.
Qwen2.5-VL-Instruct-3B에서의 실험 결과, \method는 멀티모달 및 텍스트 전용 벤치마크에서 각각 4.83%와 4.5%의 평균 개선을 달성했으며, 복잡한 Football Game 작업에서는 3.63%의 성능 향상을 보였습니다. 이러한 결과는 텍스트 기반 추론 강화가 효과적인 멀티모달 일반화를 가능하게 하며, 고품질 멀티모달 훈련 데이터의 비용을 절감할 수 있는 데이터 효율적인 패러다임을 제공함을 입증합니다.
English
Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges
from the complex interplay between visual perception and logical reasoning,
particularly in compact 3B-parameter architectures where architectural
constraints limit reasoning capacity and modality alignment.
While rule-based reinforcement learning (RL) excels in text-only domains, its
multimodal extension confronts two critical barriers: (1) data limitations due
to ambiguous answers and scarce complex reasoning examples, and (2) degraded
foundational reasoning induced by multimodal pretraining.
To address these challenges, we propose \method, a two-stage
framework adapting rule-based RL for multimodal reasoning through
Foundational Reasoning Enhancement (FRE) followed by
Multimodal Generalization Training (MGT). The FRE stage first
strengthens reasoning abilities using text-only data with rule-based RL, then
the MGT stage generalizes these reasoning capabilities to multimodal domains.
Experiments on Qwen2.5-VL-Instruct-3B demonstrate that \method achieves
4.83\% and 4.5\% average improvements over baselines in multimodal and
text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game
tasks. These results validate that text-based reasoning enhancement enables
effective multimodal generalization, offering a data-efficient paradigm that
bypasses costly high-quality multimodal training data.Summary
AI-Generated Summary