ChatPaper.aiChatPaper

LMM-R1: Усиление 3B LMM с мощными способностями к рассуждению через двухэтапное обучение с подкреплением на основе правил

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

March 10, 2025
Авторы: Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang
cs.AI

Аннотация

Улучшение способности к рассуждению в крупных мультимодальных моделях (LMM) сталкивается с уникальными вызовами, связанными со сложным взаимодействием между визуальным восприятием и логическим мышлением, особенно в компактных архитектурах с 3 миллиардами параметров, где ограничения архитектуры снижают способность к рассуждению и согласованность модальностей. Хотя обучение с подкреплением на основе правил (RL) демонстрирует высокие результаты в текстовых задачах, его мультимодальное расширение сталкивается с двумя критическими проблемами: (1) ограничения данных из-за неоднозначных ответов и недостатка примеров сложных рассуждений, и (2) ухудшение базовых способностей к рассуждению, вызванное мультимодальным предобучением. Для решения этих проблем мы предлагаем \method, двухэтапную структуру, адаптирующую обучение с подкреплением на основе правил для мультимодальных рассуждений через Усиление Базовых Способностей к Рассуждению (FRE) с последующим Обучением Мультимодальной Обобщаемости (MGT). На этапе FRE сначала укрепляются способности к рассуждению с использованием текстовых данных и RL на основе правил, а затем на этапе MGT эти способности обобщаются для мультимодальных задач. Эксперименты на модели Qwen2.5-VL-Instruct-3B показывают, что \method достигает среднего улучшения на 4,83\% и 4,5\% по сравнению с базовыми методами в мультимодальных и текстовых тестах соответственно, с увеличением на 3,63\% в сложных задачах Football Game. Эти результаты подтверждают, что усиление способности к рассуждению на основе текста позволяет эффективно обобщать знания для мультимодальных задач, предлагая ресурсоэффективный подход, который обходит необходимость в дорогостоящих высококачественных мультимодальных данных для обучения.
English
Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges from the complex interplay between visual perception and logical reasoning, particularly in compact 3B-parameter architectures where architectural constraints limit reasoning capacity and modality alignment. While rule-based reinforcement learning (RL) excels in text-only domains, its multimodal extension confronts two critical barriers: (1) data limitations due to ambiguous answers and scarce complex reasoning examples, and (2) degraded foundational reasoning induced by multimodal pretraining. To address these challenges, we propose \method, a two-stage framework adapting rule-based RL for multimodal reasoning through Foundational Reasoning Enhancement (FRE) followed by Multimodal Generalization Training (MGT). The FRE stage first strengthens reasoning abilities using text-only data with rule-based RL, then the MGT stage generalizes these reasoning capabilities to multimodal domains. Experiments on Qwen2.5-VL-Instruct-3B demonstrate that \method achieves 4.83\% and 4.5\% average improvements over baselines in multimodal and text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game tasks. These results validate that text-based reasoning enhancement enables effective multimodal generalization, offering a data-efficient paradigm that bypasses costly high-quality multimodal training data.

Summary

AI-Generated Summary

PDF853March 12, 2025