Один RL для всех: Визуальное тройное унифицированное обучение с подкреплением
One RL to See Them All: Visual Triple Unified Reinforcement Learning
May 23, 2025
Авторы: Yan Ma, Linge Du, Xuyang Shen, Shaoxiang Chen, Pengfei Li, Qibing Ren, Lizhuang Ma, Yuchao Dai, Pengfei Liu, Junjie Yan
cs.AI
Аннотация
Обучение с подкреплением (RL) значительно расширило способности к рассуждению в моделях, работающих с визуальными и языковыми данными (VLMs). Однако использование RL за пределами задач рассуждения остается малоизученным, особенно для задач, требующих интенсивного восприятия, таких как обнаружение объектов и их локализация. Мы предлагаем V-Triune, систему визуального тройного унифицированного обучения с подкреплением, которая позволяет VLMs совместно обучаться задачам визуального рассуждения и восприятия в рамках единого процесса обучения. V-Triune состоит из трех взаимодополняющих компонентов: форматирование данных на уровне выборок (для унификации разнообразных входных данных задач), вычисление вознаграждений на уровне верификаторов (для предоставления специализированных вознаграждений через специализированные верификаторы) и мониторинг метрик на уровне источников данных (для диагностики проблем на уровне источников данных). Мы также вводим новое динамическое вознаграждение IoU, которое обеспечивает адаптивную, прогрессивную и четкую обратную связь для задач восприятия, решаемых V-Triune. Наш подход реализован в рамках стандартной RL-обучающей платформы с использованием открытых моделей с 7B и 32B параметрами. Полученная модель, названная Orsta (One RL to See Them All), демонстрирует устойчивые улучшения как в задачах рассуждения, так и в задачах восприятия. Эта широкая способность во многом обусловлена обучением на разнообразном наборе данных, построенном вокруг четырех репрезентативных задач визуального рассуждения (Математика, Головоломки, Графики и Наука) и четырех задач визуального восприятия (Локализация, Обнаружение, Подсчет и OCR). В результате Orsta достигает значительных улучшений на MEGA-Bench Core, с приростом от +2.1 до впечатляющих +14.1 для различных вариантов моделей с 7B и 32B параметрами, причем преимущества в производительности распространяются на широкий спектр последующих задач. Эти результаты подчеркивают эффективность и масштабируемость нашего унифицированного подхода к RL для VLMs. Система V-Triune, а также модели Orsta, доступны публично по адресу https://github.com/MiniMax-AI.
English
Reinforcement learning (RL) has significantly advanced the reasoning
capabilities of vision-language models (VLMs). However, the use of RL beyond
reasoning tasks remains largely unexplored, especially for perceptionintensive
tasks like object detection and grounding. We propose V-Triune, a Visual Triple
Unified Reinforcement Learning system that enables VLMs to jointly learn visual
reasoning and perception tasks within a single training pipeline. V-Triune
comprises triple complementary components: Sample-Level Data Formatting (to
unify diverse task inputs), Verifier-Level Reward Computation (to deliver
custom rewards via specialized verifiers) , and Source-Level Metric Monitoring
(to diagnose problems at the data-source level). We further introduce a novel
Dynamic IoU reward, which provides adaptive, progressive, and definite feedback
for perception tasks handled by V-Triune. Our approach is instantiated within
off-the-shelf RL training framework using open-source 7B and 32B backbone
models. The resulting model, dubbed Orsta (One RL to See Them All),
demonstrates consistent improvements across both reasoning and perception
tasks. This broad capability is significantly shaped by its training on a
diverse dataset, constructed around four representative visual reasoning tasks
(Math, Puzzle, Chart, and Science) and four visual perception tasks (Grounding,
Detection, Counting, and OCR). Subsequently, Orsta achieves substantial gains
on MEGA-Bench Core, with improvements ranging from +2.1 to an impressive +14.1
across its various 7B and 32B model variants, with performance benefits
extending to a wide range of downstream tasks. These results highlight the
effectiveness and scalability of our unified RL approach for VLMs. The V-Triune
system, along with the Orsta models, is publicly available at
https://github.com/MiniMax-AI.Summary
AI-Generated Summary