Un RL per Vederli Tutti: Apprendimento per Rinforzo Triplo Unificato per la Visione
One RL to See Them All: Visual Triple Unified Reinforcement Learning
May 23, 2025
Autori: Yan Ma, Linge Du, Xuyang Shen, Shaoxiang Chen, Pengfei Li, Qibing Ren, Lizhuang Ma, Yuchao Dai, Pengfei Liu, Junjie Yan
cs.AI
Abstract
L'apprendimento per rinforzo (Reinforcement Learning, RL) ha significativamente migliorato le capacità di ragionamento dei modelli visione-linguaggio (Vision-Language Models, VLMs). Tuttavia, l'uso del RL al di là dei compiti di ragionamento rimane in gran parte inesplorato, specialmente per compiti intensivi di percezione come il rilevamento e il grounding di oggetti. Proponiamo V-Triune, un sistema di Visual Triple Unified Reinforcement Learning che consente ai VLMs di apprendere congiuntamente compiti di ragionamento visivo e percezione all'interno di una singola pipeline di addestramento. V-Triune comprende tre componenti complementari: la Formattazione dei Dati a Livello di Campione (per unificare input di compiti diversi), il Calcolo delle Ricompense a Livello di Verificatore (per fornire ricompense personalizzate tramite verificatori specializzati) e il Monitoraggio delle Metriche a Livello di Sorgente (per diagnosticare problemi a livello di sorgente dati). Introduciamo inoltre una nuova ricompensa Dynamic IoU, che fornisce feedback adattivo, progressivo e definitivo per i compiti di percezione gestiti da V-Triune. Il nostro approccio è implementato all'interno di un framework di addestramento RL standard utilizzando modelli backbone open-source da 7B e 32B. Il modello risultante, denominato Orsta (One RL to See Them All), dimostra miglioramenti consistenti sia nei compiti di ragionamento che di percezione. Questa ampia capacità è significativamente influenzata dal suo addestramento su un dataset diversificato, costruito attorno a quattro compiti rappresentativi di ragionamento visivo (Matematica, Puzzle, Grafici e Scienza) e quattro compiti di percezione visiva (Grounding, Rilevamento, Conteggio e OCR). Di conseguenza, Orsta ottiene guadagni sostanziali su MEGA-Bench Core, con miglioramenti che vanno da +2.1 a un impressionante +14.1 tra le sue varie varianti di modelli da 7B e 32B, con benefici di prestazioni che si estendono a un'ampia gamma di compiti downstream. Questi risultati evidenziano l'efficacia e la scalabilità del nostro approccio RL unificato per i VLMs. Il sistema V-Triune, insieme ai modelli Orsta, è disponibile pubblicamente all'indirizzo https://github.com/MiniMax-AI.
English
Reinforcement learning (RL) has significantly advanced the reasoning
capabilities of vision-language models (VLMs). However, the use of RL beyond
reasoning tasks remains largely unexplored, especially for perceptionintensive
tasks like object detection and grounding. We propose V-Triune, a Visual Triple
Unified Reinforcement Learning system that enables VLMs to jointly learn visual
reasoning and perception tasks within a single training pipeline. V-Triune
comprises triple complementary components: Sample-Level Data Formatting (to
unify diverse task inputs), Verifier-Level Reward Computation (to deliver
custom rewards via specialized verifiers) , and Source-Level Metric Monitoring
(to diagnose problems at the data-source level). We further introduce a novel
Dynamic IoU reward, which provides adaptive, progressive, and definite feedback
for perception tasks handled by V-Triune. Our approach is instantiated within
off-the-shelf RL training framework using open-source 7B and 32B backbone
models. The resulting model, dubbed Orsta (One RL to See Them All),
demonstrates consistent improvements across both reasoning and perception
tasks. This broad capability is significantly shaped by its training on a
diverse dataset, constructed around four representative visual reasoning tasks
(Math, Puzzle, Chart, and Science) and four visual perception tasks (Grounding,
Detection, Counting, and OCR). Subsequently, Orsta achieves substantial gains
on MEGA-Bench Core, with improvements ranging from +2.1 to an impressive +14.1
across its various 7B and 32B model variants, with performance benefits
extending to a wide range of downstream tasks. These results highlight the
effectiveness and scalability of our unified RL approach for VLMs. The V-Triune
system, along with the Orsta models, is publicly available at
https://github.com/MiniMax-AI.