Un RL pour tous les voir : Apprentissage par renforcement visuel unifié des triples
One RL to See Them All: Visual Triple Unified Reinforcement Learning
May 23, 2025
Auteurs: Yan Ma, Linge Du, Xuyang Shen, Shaoxiang Chen, Pengfei Li, Qibing Ren, Lizhuang Ma, Yuchao Dai, Pengfei Liu, Junjie Yan
cs.AI
Résumé
L'apprentissage par renforcement (Reinforcement Learning, RL) a considérablement amélioré les capacités de raisonnement des modèles vision-langage (Vision-Language Models, VLMs). Cependant, l'utilisation du RL au-delà des tâches de raisonnement reste largement inexplorée, en particulier pour les tâches intensives en perception comme la détection d'objets et l'ancrage. Nous proposons V-Triune, un système de Triple Apprentissage par Renforcement Unifié Visuel qui permet aux VLMs d'apprendre conjointement des tâches de raisonnement visuel et de perception dans un seul pipeline d'entraînement. V-Triune comprend trois composants complémentaires : le Formatage des Données au Niveau de l'Échantillon (pour unifier les entrées de tâches diverses), le Calcul de Récompense au Niveau du Vérificateur (pour fournir des récompenses personnalisées via des vérificateurs spécialisés) et la Surveillance des Métriques au Niveau de la Source (pour diagnostiquer les problèmes au niveau de la source de données). Nous introduisons également une nouvelle récompense Dynamique IoU, qui fournit un retour d'information adaptatif, progressif et précis pour les tâches de perception gérées par V-Triune. Notre approche est instanciée dans un cadre d'entraînement RL standard en utilisant des modèles de base open-source de 7B et 32B. Le modèle résultant, baptisé Orsta (One RL to See Them All), démontre des améliorations constantes à la fois pour les tâches de raisonnement et de perception. Cette capacité étendue est largement influencée par son entraînement sur un ensemble de données diversifié, construit autour de quatre tâches de raisonnement visuel représentatives (Mathématiques, Puzzle, Graphique et Science) et de quatre tâches de perception visuelle (Ancrage, Détection, Comptage et OCR). Par la suite, Orsta obtient des gains substantiels sur MEGA-Bench Core, avec des améliorations allant de +2,1 à un impressionnant +14,1 pour ses différentes variantes de modèles 7B et 32B, les avantages en termes de performance s'étendant à un large éventail de tâches en aval. Ces résultats mettent en évidence l'efficacité et l'évolutivité de notre approche unifiée de RL pour les VLMs. Le système V-Triune, ainsi que les modèles Orsta, sont disponibles publiquement à l'adresse https://github.com/MiniMax-AI.
English
Reinforcement learning (RL) has significantly advanced the reasoning
capabilities of vision-language models (VLMs). However, the use of RL beyond
reasoning tasks remains largely unexplored, especially for perceptionintensive
tasks like object detection and grounding. We propose V-Triune, a Visual Triple
Unified Reinforcement Learning system that enables VLMs to jointly learn visual
reasoning and perception tasks within a single training pipeline. V-Triune
comprises triple complementary components: Sample-Level Data Formatting (to
unify diverse task inputs), Verifier-Level Reward Computation (to deliver
custom rewards via specialized verifiers) , and Source-Level Metric Monitoring
(to diagnose problems at the data-source level). We further introduce a novel
Dynamic IoU reward, which provides adaptive, progressive, and definite feedback
for perception tasks handled by V-Triune. Our approach is instantiated within
off-the-shelf RL training framework using open-source 7B and 32B backbone
models. The resulting model, dubbed Orsta (One RL to See Them All),
demonstrates consistent improvements across both reasoning and perception
tasks. This broad capability is significantly shaped by its training on a
diverse dataset, constructed around four representative visual reasoning tasks
(Math, Puzzle, Chart, and Science) and four visual perception tasks (Grounding,
Detection, Counting, and OCR). Subsequently, Orsta achieves substantial gains
on MEGA-Bench Core, with improvements ranging from +2.1 to an impressive +14.1
across its various 7B and 32B model variants, with performance benefits
extending to a wide range of downstream tasks. These results highlight the
effectiveness and scalability of our unified RL approach for VLMs. The V-Triune
system, along with the Orsta models, is publicly available at
https://github.com/MiniMax-AI.Summary
AI-Generated Summary