ChatPaper.aiChatPaper

LMM-R1: Capacitando LMMs de 3B com Habilidades de Raciocínio Fortes Através de RL Baseado em Regras em Duas Etapas

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

March 10, 2025
Autores: Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang
cs.AI

Resumo

Aprimorar o raciocínio em Modelos Multimodais de Grande Escala (LMMs) enfrenta desafios únicos decorrentes da complexa interação entre percepção visual e raciocínio lógico, especialmente em arquiteturas compactas de 3 bilhões de parâmetros, onde as restrições arquitetônicas limitam a capacidade de raciocínio e o alinhamento de modalidades. Embora o aprendizado por reforço baseado em regras (RL) se destaque em domínios exclusivamente textuais, sua extensão multimodal enfrenta duas barreiras críticas: (1) limitações de dados devido a respostas ambíguas e escassez de exemplos complexos de raciocínio, e (2) degradação do raciocínio fundamental induzida pelo pré-treinamento multimodal. Para abordar esses desafios, propomos o \method, uma estrutura de duas etapas que adapta o RL baseado em regras para o raciocínio multimodal por meio do Aprimoramento do Raciocínio Fundamental (FRE), seguido pelo Treinamento de Generalização Multimodal (MGT). A etapa FRE primeiro fortalece as habilidades de raciocínio utilizando dados exclusivamente textuais com RL baseado em regras, e então a etapa MGT generaliza essas capacidades de raciocínio para domínios multimodais. Experimentos no Qwen2.5-VL-Instruct-3B demonstram que o \method alcança melhorias médias de 4,83% e 4,5% em relação às linhas de base em benchmarks multimodais e exclusivamente textuais, respectivamente, com um ganho de 3,63% em tarefas complexas de Jogo de Futebol. Esses resultados validam que o aprimoramento do raciocínio baseado em texto permite uma generalização multimodal eficaz, oferecendo um paradigma eficiente em termos de dados que contorna a necessidade de dados de treinamento multimodal de alta qualidade e custo elevado.
English
Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges from the complex interplay between visual perception and logical reasoning, particularly in compact 3B-parameter architectures where architectural constraints limit reasoning capacity and modality alignment. While rule-based reinforcement learning (RL) excels in text-only domains, its multimodal extension confronts two critical barriers: (1) data limitations due to ambiguous answers and scarce complex reasoning examples, and (2) degraded foundational reasoning induced by multimodal pretraining. To address these challenges, we propose \method, a two-stage framework adapting rule-based RL for multimodal reasoning through Foundational Reasoning Enhancement (FRE) followed by Multimodal Generalization Training (MGT). The FRE stage first strengthens reasoning abilities using text-only data with rule-based RL, then the MGT stage generalizes these reasoning capabilities to multimodal domains. Experiments on Qwen2.5-VL-Instruct-3B demonstrate that \method achieves 4.83\% and 4.5\% average improvements over baselines in multimodal and text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game tasks. These results validate that text-based reasoning enhancement enables effective multimodal generalization, offering a data-efficient paradigm that bypasses costly high-quality multimodal training data.

Summary

AI-Generated Summary

PDF853March 12, 2025