ChatPaper.aiChatPaper

Un RL per Vederli Tutti: Apprendimento per Rinforzo Triplo Unificato per la Visione

One RL to See Them All: Visual Triple Unified Reinforcement Learning

May 23, 2025
Autori: Yan Ma, Linge Du, Xuyang Shen, Shaoxiang Chen, Pengfei Li, Qibing Ren, Lizhuang Ma, Yuchao Dai, Pengfei Liu, Junjie Yan
cs.AI

Abstract

L'apprendimento per rinforzo (Reinforcement Learning, RL) ha significativamente migliorato le capacità di ragionamento dei modelli visione-linguaggio (Vision-Language Models, VLMs). Tuttavia, l'uso del RL al di là dei compiti di ragionamento rimane in gran parte inesplorato, specialmente per compiti intensivi di percezione come il rilevamento e il grounding di oggetti. Proponiamo V-Triune, un sistema di Visual Triple Unified Reinforcement Learning che consente ai VLMs di apprendere congiuntamente compiti di ragionamento visivo e percezione all'interno di una singola pipeline di addestramento. V-Triune comprende tre componenti complementari: la Formattazione dei Dati a Livello di Campione (per unificare input di compiti diversi), il Calcolo delle Ricompense a Livello di Verificatore (per fornire ricompense personalizzate tramite verificatori specializzati) e il Monitoraggio delle Metriche a Livello di Sorgente (per diagnosticare problemi a livello di sorgente dati). Introduciamo inoltre una nuova ricompensa Dynamic IoU, che fornisce feedback adattivo, progressivo e definitivo per i compiti di percezione gestiti da V-Triune. Il nostro approccio è implementato all'interno di un framework di addestramento RL standard utilizzando modelli backbone open-source da 7B e 32B. Il modello risultante, denominato Orsta (One RL to See Them All), dimostra miglioramenti consistenti sia nei compiti di ragionamento che di percezione. Questa ampia capacità è significativamente influenzata dal suo addestramento su un dataset diversificato, costruito attorno a quattro compiti rappresentativi di ragionamento visivo (Matematica, Puzzle, Grafici e Scienza) e quattro compiti di percezione visiva (Grounding, Rilevamento, Conteggio e OCR). Di conseguenza, Orsta ottiene guadagni sostanziali su MEGA-Bench Core, con miglioramenti che vanno da +2.1 a un impressionante +14.1 tra le sue varie varianti di modelli da 7B e 32B, con benefici di prestazioni che si estendono a un'ampia gamma di compiti downstream. Questi risultati evidenziano l'efficacia e la scalabilità del nostro approccio RL unificato per i VLMs. Il sistema V-Triune, insieme ai modelli Orsta, è disponibile pubblicamente all'indirizzo https://github.com/MiniMax-AI.
English
Reinforcement learning (RL) has significantly advanced the reasoning capabilities of vision-language models (VLMs). However, the use of RL beyond reasoning tasks remains largely unexplored, especially for perceptionintensive tasks like object detection and grounding. We propose V-Triune, a Visual Triple Unified Reinforcement Learning system that enables VLMs to jointly learn visual reasoning and perception tasks within a single training pipeline. V-Triune comprises triple complementary components: Sample-Level Data Formatting (to unify diverse task inputs), Verifier-Level Reward Computation (to deliver custom rewards via specialized verifiers) , and Source-Level Metric Monitoring (to diagnose problems at the data-source level). We further introduce a novel Dynamic IoU reward, which provides adaptive, progressive, and definite feedback for perception tasks handled by V-Triune. Our approach is instantiated within off-the-shelf RL training framework using open-source 7B and 32B backbone models. The resulting model, dubbed Orsta (One RL to See Them All), demonstrates consistent improvements across both reasoning and perception tasks. This broad capability is significantly shaped by its training on a diverse dataset, constructed around four representative visual reasoning tasks (Math, Puzzle, Chart, and Science) and four visual perception tasks (Grounding, Detection, Counting, and OCR). Subsequently, Orsta achieves substantial gains on MEGA-Bench Core, with improvements ranging from +2.1 to an impressive +14.1 across its various 7B and 32B model variants, with performance benefits extending to a wide range of downstream tasks. These results highlight the effectiveness and scalability of our unified RL approach for VLMs. The V-Triune system, along with the Orsta models, is publicly available at https://github.com/MiniMax-AI.
PDF602May 26, 2025