MM-Eureka: Исследование визуального момента озарения с помощью масштабируемого обучения с подкреплением на основе правил

Аннотация

Мы представляем MM-Eureka, мультимодальную модель рассуждений, которая успешно расширяет крупномасштабное правило-ориентированное обучение с подкреплением (RL) на мультимодальные рассуждения. Хотя правило-ориентированное RL продемонстрировало впечатляющие успехи в улучшении способностей языковых моделей (LLM) к рассуждениям в текстовых областях, его применение в мультимодальных условиях оставалось сложной задачей. Наша работа воспроизводит ключевые характеристики текстовых RL-систем, таких как DeepSeek-R1, в мультимодальном пространстве, включая устойчивое увеличение награды за точность и длины ответов, а также появление рефлексивного поведения. Мы показываем, что как инструктивно-настроенные, так и предварительно обученные модели могут развивать сильные мультимодальные способности к рассуждениям через правило-ориентированное RL без контролируемого тонкого настройки, демонстрируя превосходную эффективность использования данных по сравнению с альтернативными подходами. Мы открываем наш полный конвейер для стимулирования дальнейших исследований в этой области. Все наши коды, модели, данные и т.д. доступны по адресу https://github.com/ModalMinds/MM-EUREKA.

English

We present MM-Eureka, a multimodal reasoning model that successfully extends large-scale rule-based reinforcement learning (RL) to multimodal reasoning. While rule-based RL has shown remarkable success in improving LLMs' reasoning abilities in text domains, its application to multimodal settings has remained challenging. Our work reproduces key characteristics of text-based RL systems like DeepSeek-R1 in the multimodal space, including steady increases in accuracy reward and response length, and the emergence of reflection behaviors. We demonstrate that both instruction-tuned and pre-trained models can develop strong multimodal reasoning capabilities through rule-based RL without supervised fine-tuning, showing superior data efficiency compared to alternative approaches. We open-source our complete pipeline to foster further research in this area. We release all our codes, models, data, etc. at https://github.com/ModalMinds/MM-EUREKA

MM-Eureka: Исследование визуального момента озарения с помощью масштабируемого обучения с подкреплением на основе правил

MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

Аннотация

Support