Технический отчет MiMo-VLMiMo-VL Technical Report
Мы открываем исходный код моделей MiMo-VL-7B-SFT и MiMo-VL-7B-RL — двух мощных моделей для работы с визуальными и текстовыми данными, демонстрирующих передовые результаты как в общем понимании визуальной информации, так и в мультимодальных рассуждениях. MiMo-VL-7B-RL превосходит Qwen2.5-VL-7B в 35 из 40 оцениваемых задач и набирает 59.4 балла на OlympiadBench, опережая модели с числом параметров до 78 миллиардов. В задачах, связанных с интерфейсами (GUI), она устанавливает новый стандарт с результатом 56.1 на OSWorld-G, превосходя даже специализированные модели, такие как UI-TARS. Наше обучение сочетает четырехэтапное предварительное обучение (2.4 триллиона токенов) с методом Mixed On-policy Reinforcement Learning (MORL), интегрирующим разнообразные сигналы вознаграждения. Мы подчеркиваем важность включения высококачественных данных для рассуждений с длинными цепочками мыслей (Chain-of-Thought) на этапах предварительного обучения, а также преимущества смешанного обучения с подкреплением, несмотря на сложности одновременной оптимизации в нескольких доменах. Мы также представляем комплексный набор для оценки, охватывающий более 50 задач, чтобы способствовать воспроизводимости и развитию области. Чекпоинты модели и полный набор для оценки доступны по адресу https://github.com/XiaomiMiMo/MiMo-VL.