Un RL para Verlos Todos: Aprendizaje por Refuerzo Visual Triple Unificado

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha avanzado significativamente las capacidades de razonamiento de los modelos de visión y lenguaje (VLMs). Sin embargo, el uso de RL más allá de tareas de razonamiento sigue siendo en gran parte inexplorado, especialmente para tareas intensivas en percepción como la detección y localización de objetos. Proponemos V-Triune, un sistema de Aprendizaje por Refuerzo Unificado Triple Visual que permite a los VLMs aprender conjuntamente tareas de razonamiento visual y percepción dentro de una única canalización de entrenamiento. V-Triune comprende tres componentes complementarios: Formateo de Datos a Nivel de Muestra (para unificar entradas de tareas diversas), Cálculo de Recompensas a Nivel de Verificador (para entregar recompensas personalizadas mediante verificadores especializados) y Monitoreo de Métricas a Nivel de Fuente (para diagnosticar problemas en el nivel de la fuente de datos). Además, introducimos una novedosa recompensa de IoU Dinámica, que proporciona retroalimentación adaptativa, progresiva y definitiva para las tareas de percepción manejadas por V-Triune. Nuestro enfoque se implementa dentro de un marco de entrenamiento RL estándar utilizando modelos base de 7B y 32B de código abierto. El modelo resultante, denominado Orsta (One RL to See Them All), demuestra mejoras consistentes tanto en tareas de razonamiento como de percepción. Esta amplia capacidad está significativamente moldeada por su entrenamiento en un conjunto de datos diverso, construido en torno a cuatro tareas representativas de razonamiento visual (Matemáticas, Rompecabezas, Gráficos y Ciencia) y cuatro tareas de percepción visual (Localización, Detección, Conteo y OCR). Posteriormente, Orsta logra ganancias sustanciales en MEGA-Bench Core, con mejoras que van desde +2.1 hasta un impresionante +14.1 en sus diversas variantes de modelos de 7B y 32B, con beneficios de rendimiento que se extienden a una amplia gama de tareas posteriores. Estos resultados destacan la efectividad y escalabilidad de nuestro enfoque RL unificado para VLMs. El sistema V-Triune, junto con los modelos Orsta, está disponible públicamente en https://github.com/MiniMax-AI.

English

Reinforcement learning (RL) has significantly advanced the reasoning capabilities of vision-language models (VLMs). However, the use of RL beyond reasoning tasks remains largely unexplored, especially for perceptionintensive tasks like object detection and grounding. We propose V-Triune, a Visual Triple Unified Reinforcement Learning system that enables VLMs to jointly learn visual reasoning and perception tasks within a single training pipeline. V-Triune comprises triple complementary components: Sample-Level Data Formatting (to unify diverse task inputs), Verifier-Level Reward Computation (to deliver custom rewards via specialized verifiers) , and Source-Level Metric Monitoring (to diagnose problems at the data-source level). We further introduce a novel Dynamic IoU reward, which provides adaptive, progressive, and definite feedback for perception tasks handled by V-Triune. Our approach is instantiated within off-the-shelf RL training framework using open-source 7B and 32B backbone models. The resulting model, dubbed Orsta (One RL to See Them All), demonstrates consistent improvements across both reasoning and perception tasks. This broad capability is significantly shaped by its training on a diverse dataset, constructed around four representative visual reasoning tasks (Math, Puzzle, Chart, and Science) and four visual perception tasks (Grounding, Detection, Counting, and OCR). Subsequently, Orsta achieves substantial gains on MEGA-Bench Core, with improvements ranging from +2.1 to an impressive +14.1 across its various 7B and 32B model variants, with performance benefits extending to a wide range of downstream tasks. These results highlight the effectiveness and scalability of our unified RL approach for VLMs. The V-Triune system, along with the Orsta models, is publicly available at https://github.com/MiniMax-AI.

Un RL para Verlos Todos: Aprendizaje por Refuerzo Visual Triple Unificado

One RL to See Them All: Visual Triple Unified Reinforcement Learning

Resumen

Support