Un RL para Verlos Todos: Aprendizaje por Refuerzo Visual Triple Unificado
One RL to See Them All: Visual Triple Unified Reinforcement Learning
May 23, 2025
Autores: Yan Ma, Linge Du, Xuyang Shen, Shaoxiang Chen, Pengfei Li, Qibing Ren, Lizhuang Ma, Yuchao Dai, Pengfei Liu, Junjie Yan
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha avanzado significativamente las capacidades de razonamiento de los modelos de visión y lenguaje (VLMs). Sin embargo, el uso de RL más allá de tareas de razonamiento sigue siendo en gran parte inexplorado, especialmente para tareas intensivas en percepción como la detección y localización de objetos. Proponemos V-Triune, un sistema de Aprendizaje por Refuerzo Unificado Triple Visual que permite a los VLMs aprender conjuntamente tareas de razonamiento visual y percepción dentro de una única canalización de entrenamiento. V-Triune comprende tres componentes complementarios: Formateo de Datos a Nivel de Muestra (para unificar entradas de tareas diversas), Cálculo de Recompensas a Nivel de Verificador (para entregar recompensas personalizadas mediante verificadores especializados) y Monitoreo de Métricas a Nivel de Fuente (para diagnosticar problemas en el nivel de la fuente de datos). Además, introducimos una novedosa recompensa de IoU Dinámica, que proporciona retroalimentación adaptativa, progresiva y definitiva para las tareas de percepción manejadas por V-Triune. Nuestro enfoque se implementa dentro de un marco de entrenamiento RL estándar utilizando modelos base de 7B y 32B de código abierto. El modelo resultante, denominado Orsta (One RL to See Them All), demuestra mejoras consistentes tanto en tareas de razonamiento como de percepción. Esta amplia capacidad está significativamente moldeada por su entrenamiento en un conjunto de datos diverso, construido en torno a cuatro tareas representativas de razonamiento visual (Matemáticas, Rompecabezas, Gráficos y Ciencia) y cuatro tareas de percepción visual (Localización, Detección, Conteo y OCR). Posteriormente, Orsta logra ganancias sustanciales en MEGA-Bench Core, con mejoras que van desde +2.1 hasta un impresionante +14.1 en sus diversas variantes de modelos de 7B y 32B, con beneficios de rendimiento que se extienden a una amplia gama de tareas posteriores. Estos resultados destacan la efectividad y escalabilidad de nuestro enfoque RL unificado para VLMs. El sistema V-Triune, junto con los modelos Orsta, está disponible públicamente en https://github.com/MiniMax-AI.
English
Reinforcement learning (RL) has significantly advanced the reasoning
capabilities of vision-language models (VLMs). However, the use of RL beyond
reasoning tasks remains largely unexplored, especially for perceptionintensive
tasks like object detection and grounding. We propose V-Triune, a Visual Triple
Unified Reinforcement Learning system that enables VLMs to jointly learn visual
reasoning and perception tasks within a single training pipeline. V-Triune
comprises triple complementary components: Sample-Level Data Formatting (to
unify diverse task inputs), Verifier-Level Reward Computation (to deliver
custom rewards via specialized verifiers) , and Source-Level Metric Monitoring
(to diagnose problems at the data-source level). We further introduce a novel
Dynamic IoU reward, which provides adaptive, progressive, and definite feedback
for perception tasks handled by V-Triune. Our approach is instantiated within
off-the-shelf RL training framework using open-source 7B and 32B backbone
models. The resulting model, dubbed Orsta (One RL to See Them All),
demonstrates consistent improvements across both reasoning and perception
tasks. This broad capability is significantly shaped by its training on a
diverse dataset, constructed around four representative visual reasoning tasks
(Math, Puzzle, Chart, and Science) and four visual perception tasks (Grounding,
Detection, Counting, and OCR). Subsequently, Orsta achieves substantial gains
on MEGA-Bench Core, with improvements ranging from +2.1 to an impressive +14.1
across its various 7B and 32B model variants, with performance benefits
extending to a wide range of downstream tasks. These results highlight the
effectiveness and scalability of our unified RL approach for VLMs. The V-Triune
system, along with the Orsta models, is publicly available at
https://github.com/MiniMax-AI.