LMM-R1: Усиление 3B LMM с мощными способностями к рассуждению через двухэтапное обучение с подкреплением на основе правил
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
March 10, 2025
Авторы: Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang
cs.AI
Аннотация
Улучшение способности к рассуждению в крупных мультимодальных моделях (LMM) сталкивается с уникальными вызовами, связанными со сложным взаимодействием между визуальным восприятием и логическим мышлением, особенно в компактных архитектурах с 3 миллиардами параметров, где ограничения архитектуры снижают способность к рассуждению и согласованность модальностей.
Хотя обучение с подкреплением на основе правил (RL) демонстрирует высокие результаты в текстовых задачах, его мультимодальное расширение сталкивается с двумя критическими проблемами: (1) ограничения данных из-за неоднозначных ответов и недостатка примеров сложных рассуждений, и (2) ухудшение базовых способностей к рассуждению, вызванное мультимодальным предобучением.
Для решения этих проблем мы предлагаем \method, двухэтапную структуру, адаптирующую обучение с подкреплением на основе правил для мультимодальных рассуждений через Усиление Базовых Способностей к Рассуждению (FRE) с последующим Обучением Мультимодальной Обобщаемости (MGT). На этапе FRE сначала укрепляются способности к рассуждению с использованием текстовых данных и RL на основе правил, а затем на этапе MGT эти способности обобщаются для мультимодальных задач.
Эксперименты на модели Qwen2.5-VL-Instruct-3B показывают, что \method достигает среднего улучшения на 4,83\% и 4,5\% по сравнению с базовыми методами в мультимодальных и текстовых тестах соответственно, с увеличением на 3,63\% в сложных задачах Football Game. Эти результаты подтверждают, что усиление способности к рассуждению на основе текста позволяет эффективно обобщать знания для мультимодальных задач, предлагая ресурсоэффективный подход, который обходит необходимость в дорогостоящих высококачественных мультимодальных данных для обучения.
English
Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges
from the complex interplay between visual perception and logical reasoning,
particularly in compact 3B-parameter architectures where architectural
constraints limit reasoning capacity and modality alignment.
While rule-based reinforcement learning (RL) excels in text-only domains, its
multimodal extension confronts two critical barriers: (1) data limitations due
to ambiguous answers and scarce complex reasoning examples, and (2) degraded
foundational reasoning induced by multimodal pretraining.
To address these challenges, we propose \method, a two-stage
framework adapting rule-based RL for multimodal reasoning through
Foundational Reasoning Enhancement (FRE) followed by
Multimodal Generalization Training (MGT). The FRE stage first
strengthens reasoning abilities using text-only data with rule-based RL, then
the MGT stage generalizes these reasoning capabilities to multimodal domains.
Experiments on Qwen2.5-VL-Instruct-3B demonstrate that \method achieves
4.83\% and 4.5\% average improvements over baselines in multimodal and
text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game
tasks. These results validate that text-based reasoning enhancement enables
effective multimodal generalization, offering a data-efficient paradigm that
bypasses costly high-quality multimodal training data.Summary
AI-Generated Summary