Um RL para Ver Todos: Aprendizado por Reforço Visual Triplo Unificado

Resumo

O aprendizado por reforço (RL) avançou significativamente as capacidades de raciocínio dos modelos de visão e linguagem (VLMs). No entanto, o uso de RL além de tarefas de raciocínio permanece amplamente inexplorado, especialmente para tarefas intensivas em percepção, como detecção e localização de objetos. Propomos o V-Triune, um Sistema de Aprendizado por Reforço Triplo Unificado Visual que permite que VLMs aprendam conjuntamente tarefas de raciocínio visual e percepção dentro de um único pipeline de treinamento. O V-Triune compreende três componentes complementares: Formatação de Dados em Nível de Amostra (para unificar entradas de tarefas diversas), Computação de Recompensa em Nível de Verificador (para fornecer recompensas personalizadas por meio de verificadores especializados) e Monitoramento de Métricas em Nível de Fonte (para diagnosticar problemas no nível da fonte de dados). Além disso, introduzimos uma nova recompensa de IoU Dinâmica, que fornece feedback adaptativo, progressivo e definitivo para tarefas de percepção tratadas pelo V-Triune. Nossa abordagem é instanciada dentro de um framework de treinamento RL pronto para uso, utilizando modelos de base de código aberto de 7B e 32B. O modelo resultante, denominado Orsta (One RL to See Them All), demonstra melhorias consistentes tanto em tarefas de raciocínio quanto de percepção. Essa ampla capacidade é significativamente moldada por seu treinamento em um conjunto de dados diversificado, construído em torno de quatro tarefas representativas de raciocínio visual (Matemática, Quebra-cabeça, Gráfico e Ciência) e quatro tarefas de percepção visual (Localização, Detecção, Contagem e OCR). Posteriormente, o Orsta alcança ganhos substanciais no MEGA-Bench Core, com melhorias variando de +2,1 a impressionantes +14,1 em suas várias variantes de modelos de 7B e 32B, com benefícios de desempenho se estendendo a uma ampla gama de tarefas subsequentes. Esses resultados destacam a eficácia e escalabilidade de nossa abordagem unificada de RL para VLMs. O sistema V-Triune, juntamente com os modelos Orsta, está disponível publicamente em https://github.com/MiniMax-AI.

English

Reinforcement learning (RL) has significantly advanced the reasoning capabilities of vision-language models (VLMs). However, the use of RL beyond reasoning tasks remains largely unexplored, especially for perceptionintensive tasks like object detection and grounding. We propose V-Triune, a Visual Triple Unified Reinforcement Learning system that enables VLMs to jointly learn visual reasoning and perception tasks within a single training pipeline. V-Triune comprises triple complementary components: Sample-Level Data Formatting (to unify diverse task inputs), Verifier-Level Reward Computation (to deliver custom rewards via specialized verifiers) , and Source-Level Metric Monitoring (to diagnose problems at the data-source level). We further introduce a novel Dynamic IoU reward, which provides adaptive, progressive, and definite feedback for perception tasks handled by V-Triune. Our approach is instantiated within off-the-shelf RL training framework using open-source 7B and 32B backbone models. The resulting model, dubbed Orsta (One RL to See Them All), demonstrates consistent improvements across both reasoning and perception tasks. This broad capability is significantly shaped by its training on a diverse dataset, constructed around four representative visual reasoning tasks (Math, Puzzle, Chart, and Science) and four visual perception tasks (Grounding, Detection, Counting, and OCR). Subsequently, Orsta achieves substantial gains on MEGA-Bench Core, with improvements ranging from +2.1 to an impressive +14.1 across its various 7B and 32B model variants, with performance benefits extending to a wide range of downstream tasks. These results highlight the effectiveness and scalability of our unified RL approach for VLMs. The V-Triune system, along with the Orsta models, is publicly available at https://github.com/MiniMax-AI.

Um RL para Ver Todos: Aprendizado por Reforço Visual Triplo Unificado

One RL to See Them All: Visual Triple Unified Reinforcement Learning

Resumo

Support