LMM-R1: Het versterken van 3B LMM's met sterke redeneervaardigheden door middel van tweefasen regelgebaseerd RL
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
March 10, 2025
Auteurs: Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang
cs.AI
Samenvatting
Het verbeteren van redeneervaardigheden in Grote Multimodale Modellen (LMMs) wordt geconfronteerd met unieke uitdagingen door de complexe interactie tussen visuele waarneming en logisch redeneren, vooral in compacte 3B-parameterarchitecturen waar architectonische beperkingen de redeneercapaciteit en modale afstemming beperken.
Hoewel op regels gebaseerd reinforcement learning (RL) uitblinkt in tekstuele domeinen, wordt de multimodale uitbreiding ervan geconfronteerd met twee kritieke barrières: (1) databeperkingen door dubbelzinnige antwoorden en schaarse voorbeelden van complex redeneren, en (2) verminderd fundamenteel redeneren veroorzaakt door multimodale voorpretraining.
Om deze uitdagingen aan te pakken, stellen we \method voor, een tweestappenraamwerk dat op regels gebaseerd RL aanpast voor multimodaal redeneren via Foundational Reasoning Enhancement (FRE) gevolgd door Multimodal Generalization Training (MGT). In de FRE-fase worden eerst redeneervaardigheden versterkt met alleen tekstuele gegevens en op regels gebaseerd RL, waarna de MGT-fase deze redeneervaardigheden generaliseert naar multimodale domeinen.
Experimenten op Qwen2.5-VL-Instruct-3B tonen aan dat \method gemiddelde verbeteringen van 4,83% en 4,5% behaalt ten opzichte van baseline-modellen in multimodale en tekstuele benchmarks, respectievelijk, met een winst van 3,63% in complexe Football Game-taken. Deze resultaten valideren dat tekstgebaseerde redeneerversterking effectieve multimodale generalisatie mogelijk maakt, wat een data-efficiënt paradigma biedt dat kostbare hoogwaardige multimodale trainingsgegevens omzeilt.
English
Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges
from the complex interplay between visual perception and logical reasoning,
particularly in compact 3B-parameter architectures where architectural
constraints limit reasoning capacity and modality alignment.
While rule-based reinforcement learning (RL) excels in text-only domains, its
multimodal extension confronts two critical barriers: (1) data limitations due
to ambiguous answers and scarce complex reasoning examples, and (2) degraded
foundational reasoning induced by multimodal pretraining.
To address these challenges, we propose \method, a two-stage
framework adapting rule-based RL for multimodal reasoning through
Foundational Reasoning Enhancement (FRE) followed by
Multimodal Generalization Training (MGT). The FRE stage first
strengthens reasoning abilities using text-only data with rule-based RL, then
the MGT stage generalizes these reasoning capabilities to multimodal domains.
Experiments on Qwen2.5-VL-Instruct-3B demonstrate that \method achieves
4.83\% and 4.5\% average improvements over baselines in multimodal and
text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game
tasks. These results validate that text-based reasoning enhancement enables
effective multimodal generalization, offering a data-efficient paradigm that
bypasses costly high-quality multimodal training data.Summary
AI-Generated Summary