Um RL para Ver Todos: Aprendizado por Reforço Visual Triplo Unificado
One RL to See Them All: Visual Triple Unified Reinforcement Learning
May 23, 2025
Autores: Yan Ma, Linge Du, Xuyang Shen, Shaoxiang Chen, Pengfei Li, Qibing Ren, Lizhuang Ma, Yuchao Dai, Pengfei Liu, Junjie Yan
cs.AI
Resumo
O aprendizado por reforço (RL) avançou significativamente as capacidades de raciocínio dos modelos de visão e linguagem (VLMs). No entanto, o uso de RL além de tarefas de raciocínio permanece amplamente inexplorado, especialmente para tarefas intensivas em percepção, como detecção e localização de objetos. Propomos o V-Triune, um Sistema de Aprendizado por Reforço Triplo Unificado Visual que permite que VLMs aprendam conjuntamente tarefas de raciocínio visual e percepção dentro de um único pipeline de treinamento. O V-Triune compreende três componentes complementares: Formatação de Dados em Nível de Amostra (para unificar entradas de tarefas diversas), Computação de Recompensa em Nível de Verificador (para fornecer recompensas personalizadas por meio de verificadores especializados) e Monitoramento de Métricas em Nível de Fonte (para diagnosticar problemas no nível da fonte de dados). Além disso, introduzimos uma nova recompensa de IoU Dinâmica, que fornece feedback adaptativo, progressivo e definitivo para tarefas de percepção tratadas pelo V-Triune. Nossa abordagem é instanciada dentro de um framework de treinamento RL pronto para uso, utilizando modelos de base de código aberto de 7B e 32B. O modelo resultante, denominado Orsta (One RL to See Them All), demonstra melhorias consistentes tanto em tarefas de raciocínio quanto de percepção. Essa ampla capacidade é significativamente moldada por seu treinamento em um conjunto de dados diversificado, construído em torno de quatro tarefas representativas de raciocínio visual (Matemática, Quebra-cabeça, Gráfico e Ciência) e quatro tarefas de percepção visual (Localização, Detecção, Contagem e OCR). Posteriormente, o Orsta alcança ganhos substanciais no MEGA-Bench Core, com melhorias variando de +2,1 a impressionantes +14,1 em suas várias variantes de modelos de 7B e 32B, com benefícios de desempenho se estendendo a uma ampla gama de tarefas subsequentes. Esses resultados destacam a eficácia e escalabilidade de nossa abordagem unificada de RL para VLMs. O sistema V-Triune, juntamente com os modelos Orsta, está disponível publicamente em https://github.com/MiniMax-AI.
English
Reinforcement learning (RL) has significantly advanced the reasoning
capabilities of vision-language models (VLMs). However, the use of RL beyond
reasoning tasks remains largely unexplored, especially for perceptionintensive
tasks like object detection and grounding. We propose V-Triune, a Visual Triple
Unified Reinforcement Learning system that enables VLMs to jointly learn visual
reasoning and perception tasks within a single training pipeline. V-Triune
comprises triple complementary components: Sample-Level Data Formatting (to
unify diverse task inputs), Verifier-Level Reward Computation (to deliver
custom rewards via specialized verifiers) , and Source-Level Metric Monitoring
(to diagnose problems at the data-source level). We further introduce a novel
Dynamic IoU reward, which provides adaptive, progressive, and definite feedback
for perception tasks handled by V-Triune. Our approach is instantiated within
off-the-shelf RL training framework using open-source 7B and 32B backbone
models. The resulting model, dubbed Orsta (One RL to See Them All),
demonstrates consistent improvements across both reasoning and perception
tasks. This broad capability is significantly shaped by its training on a
diverse dataset, constructed around four representative visual reasoning tasks
(Math, Puzzle, Chart, and Science) and four visual perception tasks (Grounding,
Detection, Counting, and OCR). Subsequently, Orsta achieves substantial gains
on MEGA-Bench Core, with improvements ranging from +2.1 to an impressive +14.1
across its various 7B and 32B model variants, with performance benefits
extending to a wide range of downstream tasks. These results highlight the
effectiveness and scalability of our unified RL approach for VLMs. The V-Triune
system, along with the Orsta models, is publicly available at
https://github.com/MiniMax-AI.