ChatPaper.aiChatPaper

LMM-R1: Het versterken van 3B LMM's met sterke redeneervaardigheden door middel van tweefasen regelgebaseerd RL

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

March 10, 2025
Auteurs: Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang
cs.AI

Samenvatting

Het verbeteren van redeneervaardigheden in Grote Multimodale Modellen (LMMs) wordt geconfronteerd met unieke uitdagingen door de complexe interactie tussen visuele waarneming en logisch redeneren, vooral in compacte 3B-parameterarchitecturen waar architectonische beperkingen de redeneercapaciteit en modale afstemming beperken. Hoewel op regels gebaseerd reinforcement learning (RL) uitblinkt in tekstuele domeinen, wordt de multimodale uitbreiding ervan geconfronteerd met twee kritieke barrières: (1) databeperkingen door dubbelzinnige antwoorden en schaarse voorbeelden van complex redeneren, en (2) verminderd fundamenteel redeneren veroorzaakt door multimodale voorpretraining. Om deze uitdagingen aan te pakken, stellen we \method voor, een tweestappenraamwerk dat op regels gebaseerd RL aanpast voor multimodaal redeneren via Foundational Reasoning Enhancement (FRE) gevolgd door Multimodal Generalization Training (MGT). In de FRE-fase worden eerst redeneervaardigheden versterkt met alleen tekstuele gegevens en op regels gebaseerd RL, waarna de MGT-fase deze redeneervaardigheden generaliseert naar multimodale domeinen. Experimenten op Qwen2.5-VL-Instruct-3B tonen aan dat \method gemiddelde verbeteringen van 4,83% en 4,5% behaalt ten opzichte van baseline-modellen in multimodale en tekstuele benchmarks, respectievelijk, met een winst van 3,63% in complexe Football Game-taken. Deze resultaten valideren dat tekstgebaseerde redeneerversterking effectieve multimodale generalisatie mogelijk maakt, wat een data-efficiënt paradigma biedt dat kostbare hoogwaardige multimodale trainingsgegevens omzeilt.
English
Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges from the complex interplay between visual perception and logical reasoning, particularly in compact 3B-parameter architectures where architectural constraints limit reasoning capacity and modality alignment. While rule-based reinforcement learning (RL) excels in text-only domains, its multimodal extension confronts two critical barriers: (1) data limitations due to ambiguous answers and scarce complex reasoning examples, and (2) degraded foundational reasoning induced by multimodal pretraining. To address these challenges, we propose \method, a two-stage framework adapting rule-based RL for multimodal reasoning through Foundational Reasoning Enhancement (FRE) followed by Multimodal Generalization Training (MGT). The FRE stage first strengthens reasoning abilities using text-only data with rule-based RL, then the MGT stage generalizes these reasoning capabilities to multimodal domains. Experiments on Qwen2.5-VL-Instruct-3B demonstrate that \method achieves 4.83\% and 4.5\% average improvements over baselines in multimodal and text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game tasks. These results validate that text-based reasoning enhancement enables effective multimodal generalization, offering a data-efficient paradigm that bypasses costly high-quality multimodal training data.

Summary

AI-Generated Summary

PDF853March 12, 2025