LMM-R1: Potenciando LMMs de 3B con Capacidades de Razonamiento Fuerte mediante Aprendizaje por Refuerzo Basado en Reglas en Dos Etapas
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
March 10, 2025
Autores: Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang
cs.AI
Resumen
Mejorar el razonamiento en Modelos Multimodales de Gran Escala (LMMs) enfrenta desafíos únicos debido a la compleja interacción entre la percepción visual y el razonamiento lógico, particularmente en arquitecturas compactas de 3 mil millones de parámetros, donde las limitaciones arquitectónicas restringen la capacidad de razonamiento y la alineación de modalidades.
Mientras que el aprendizaje por refuerzo basado en reglas (RL) sobresale en dominios de solo texto, su extensión multimodal enfrenta dos barreras críticas: (1) limitaciones de datos debido a respuestas ambiguas y escasez de ejemplos de razonamiento complejo, y (2) degradación del razonamiento fundamental inducida por el preentrenamiento multimodal.
Para abordar estos desafíos, proponemos \method, un marco de dos etapas que adapta el RL basado en reglas para el razonamiento multimodal a través de la Mejora del Razonamiento Fundamental (FRE) seguida del Entrenamiento de Generalización Multimodal (MGT). La etapa FRE primero fortalece las habilidades de razonamiento utilizando datos de solo texto con RL basado en reglas, luego la etapa MGT generaliza estas capacidades de razonamiento a dominios multimodales.
Los experimentos en Qwen2.5-VL-Instruct-3B demuestran que \method logra mejoras promedio del 4.83% y 4.5% sobre las líneas base en benchmarks multimodales y de solo texto, respectivamente, con una ganancia del 3.63% en tareas complejas de Juego de Fútbol. Estos resultados validan que la mejora del razonamiento basado en texto permite una generalización multimodal efectiva, ofreciendo un paradigma eficiente en datos que evita el costoso uso de datos de entrenamiento multimodal de alta calidad.
English
Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges
from the complex interplay between visual perception and logical reasoning,
particularly in compact 3B-parameter architectures where architectural
constraints limit reasoning capacity and modality alignment.
While rule-based reinforcement learning (RL) excels in text-only domains, its
multimodal extension confronts two critical barriers: (1) data limitations due
to ambiguous answers and scarce complex reasoning examples, and (2) degraded
foundational reasoning induced by multimodal pretraining.
To address these challenges, we propose \method, a two-stage
framework adapting rule-based RL for multimodal reasoning through
Foundational Reasoning Enhancement (FRE) followed by
Multimodal Generalization Training (MGT). The FRE stage first
strengthens reasoning abilities using text-only data with rule-based RL, then
the MGT stage generalizes these reasoning capabilities to multimodal domains.
Experiments on Qwen2.5-VL-Instruct-3B demonstrate that \method achieves
4.83\% and 4.5\% average improvements over baselines in multimodal and
text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game
tasks. These results validate that text-based reasoning enhancement enables
effective multimodal generalization, offering a data-efficient paradigm that
bypasses costly high-quality multimodal training data.Summary
AI-Generated Summary