Eén RL om ze allemaal te zien: Visuele Triple Geünificeerde Reinforcement Learning
One RL to See Them All: Visual Triple Unified Reinforcement Learning
May 23, 2025
Auteurs: Yan Ma, Linge Du, Xuyang Shen, Shaoxiang Chen, Pengfei Li, Qibing Ren, Lizhuang Ma, Yuchao Dai, Pengfei Liu, Junjie Yan
cs.AI
Samenvatting
Reinforcement learning (RL) heeft de redeneervaardigheden van vision-language modellen (VLMs) aanzienlijk verbeterd. Het gebruik van RL buiten redeneertaken blijft echter grotendeels onontgonnen, vooral voor perceptie-intensieve taken zoals objectdetectie en grounding. Wij stellen V-Triune voor, een Visual Triple Unified Reinforcement Learning-systeem dat VLMs in staat stelt om visuele redenering en perceptietaken gezamenlijk te leren binnen een enkele trainingspipeline. V-Triune bestaat uit drie complementaire componenten: Sample-Level Data Formatting (om diverse taakinvoeren te unificeren), Verifier-Level Reward Computation (om aangepaste beloningen te leveren via gespecialiseerde verifiers), en Source-Level Metric Monitoring (om problemen op het niveau van de databron te diagnosticeren). We introduceren verder een nieuwe Dynamic IoU-beloning, die adaptieve, progressieve en definitieve feedback biedt voor perceptietaken die door V-Triune worden afgehandeld. Onze aanpak wordt geïmplementeerd binnen een standaard RL-trainingsframework met behulp van open-source 7B en 32B backbone-modellen. Het resulterende model, genaamd Orsta (One RL to See Them All), toont consistente verbeteringen in zowel redeneer- als perceptietaken. Deze brede capaciteit wordt sterk gevormd door de training op een diverse dataset, opgebouwd rond vier representatieve visuele redeneertaken (Math, Puzzle, Chart en Science) en vier visuele perceptietaken (Grounding, Detection, Counting en OCR). Vervolgens behaalt Orsta aanzienlijke vooruitgang op MEGA-Bench Core, met verbeteringen variërend van +2,1 tot een indrukwekkende +14,1 over zijn verschillende 7B en 32B modelvarianten, waarbij de prestatievoordelen zich uitstrekken tot een breed scala aan downstreamtaken. Deze resultaten benadrukken de effectiviteit en schaalbaarheid van onze geünificeerde RL-aanpak voor VLMs. Het V-Triune-systeem, samen met de Orsta-modellen, is publiekelijk beschikbaar op https://github.com/MiniMax-AI.
English
Reinforcement learning (RL) has significantly advanced the reasoning
capabilities of vision-language models (VLMs). However, the use of RL beyond
reasoning tasks remains largely unexplored, especially for perceptionintensive
tasks like object detection and grounding. We propose V-Triune, a Visual Triple
Unified Reinforcement Learning system that enables VLMs to jointly learn visual
reasoning and perception tasks within a single training pipeline. V-Triune
comprises triple complementary components: Sample-Level Data Formatting (to
unify diverse task inputs), Verifier-Level Reward Computation (to deliver
custom rewards via specialized verifiers) , and Source-Level Metric Monitoring
(to diagnose problems at the data-source level). We further introduce a novel
Dynamic IoU reward, which provides adaptive, progressive, and definite feedback
for perception tasks handled by V-Triune. Our approach is instantiated within
off-the-shelf RL training framework using open-source 7B and 32B backbone
models. The resulting model, dubbed Orsta (One RL to See Them All),
demonstrates consistent improvements across both reasoning and perception
tasks. This broad capability is significantly shaped by its training on a
diverse dataset, constructed around four representative visual reasoning tasks
(Math, Puzzle, Chart, and Science) and four visual perception tasks (Grounding,
Detection, Counting, and OCR). Subsequently, Orsta achieves substantial gains
on MEGA-Bench Core, with improvements ranging from +2.1 to an impressive +14.1
across its various 7B and 32B model variants, with performance benefits
extending to a wide range of downstream tasks. These results highlight the
effectiveness and scalability of our unified RL approach for VLMs. The V-Triune
system, along with the Orsta models, is publicly available at
https://github.com/MiniMax-AI.