ChatPaper.aiChatPaper

LMM-R1: Potenziamento delle capacità di ragionamento dei modelli linguistici multimodali da 3 miliardi di parametri attraverso un apprendimento per rinforzo basato su regole in due fasi

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

March 10, 2025
Autori: Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang
cs.AI

Abstract

Migliorare il ragionamento nei Modelli Multimodali di Grande Dimensione (LMMs) presenta sfide uniche derivanti dalla complessa interazione tra percezione visiva e ragionamento logico, in particolare nelle architetture compatte da 3 miliardi di parametri, dove i vincoli architetturali limitano la capacità di ragionamento e l'allineamento tra le modalità. Mentre l'apprendimento per rinforzo basato su regole (RL) eccelle nei domini testuali, la sua estensione multimodale si scontra con due barriere critiche: (1) limitazioni nei dati dovute a risposte ambigue e alla scarsità di esempi di ragionamento complesso, e (2) un deterioramento del ragionamento di base indotto dal pre-addestramento multimodale. Per affrontare queste sfide, proponiamo \method, un framework in due fasi che adatta l'RL basato su regole al ragionamento multimodale attraverso il Potenziamento del Ragionamento di Base (FRE) seguito dall'Addestramento di Generalizzazione Multimodale (MGT). La fase FRE rafforza prima le capacità di ragionamento utilizzando dati testuali con RL basato su regole, mentre la fase MGT generalizza queste capacità ai domini multimodali. Gli esperimenti su Qwen2.5-VL-Instruct-3B dimostrano che \method ottiene miglioramenti medi del 4,83% e del 4,5% rispetto ai benchmark multimodali e testuali, rispettivamente, con un guadagno del 3,63% nei compiti complessi di Football Game. Questi risultati convalidano che il potenziamento del ragionamento basato su testo abilita un'efficace generalizzazione multimodale, offrendo un paradigma efficiente in termini di dati che evita il costo di dati di addestramento multimodali di alta qualità.
English
Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges from the complex interplay between visual perception and logical reasoning, particularly in compact 3B-parameter architectures where architectural constraints limit reasoning capacity and modality alignment. While rule-based reinforcement learning (RL) excels in text-only domains, its multimodal extension confronts two critical barriers: (1) data limitations due to ambiguous answers and scarce complex reasoning examples, and (2) degraded foundational reasoning induced by multimodal pretraining. To address these challenges, we propose \method, a two-stage framework adapting rule-based RL for multimodal reasoning through Foundational Reasoning Enhancement (FRE) followed by Multimodal Generalization Training (MGT). The FRE stage first strengthens reasoning abilities using text-only data with rule-based RL, then the MGT stage generalizes these reasoning capabilities to multimodal domains. Experiments on Qwen2.5-VL-Instruct-3B demonstrate that \method achieves 4.83\% and 4.5\% average improvements over baselines in multimodal and text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game tasks. These results validate that text-based reasoning enhancement enables effective multimodal generalization, offering a data-efficient paradigm that bypasses costly high-quality multimodal training data.
PDF883March 12, 2025