OpenVLThinkerV2 : Un modèle généraliste de raisonnement multimodal pour les tâches visuelles multi-domaines

Résumé

L'Optimisation Relative des Politiques par Groupe (GRPO) est devenue l'objectif de référence en Apprentissage par Renforcement (RL) qui sous-tend les récents progrès des Modèles de Langue Multimodaux de Grande Taille. Cependant, l'extension de ce succès aux modèles généralistes multimodaux open-source reste fortement limitée par deux défis principaux : la variance extrême des topologies de récompense entre les différentes tâches visuelles, et la difficulté inhérente à équilibrer la perception fine avec les capacités de raisonnement à multiples étapes. Pour résoudre ces problèmes, nous introduisons la GRPO Gaussienne (G²RPO), un nouvel objectif d'entraînement par RL qui remplace la mise à l'échelle linéaire standard par un appariement distributionnel non linéaire. En forçant mathématiquement la distribution de l'avantage de toute tâche donnée à converger strictement vers une distribution normale standard, N(0,1), G²RPO assure théoriquement l'équité des gradients inter-tâches, atténue la vulnérabilité aux valeurs aberrantes à queue lourde et offre une mise à jour symétrique pour les récompenses positives et négatives. Tirant parti de la stabilité d'entraînement améliorée offerte par G²RPO, nous introduisons deux mécanismes de façonnage au niveau de la tâche pour équilibrer de manière transparente la perception et le raisonnement. Premièrement, le façonnage par longueur de réponse suscite dynamiquement des chaînes de raisonnement étendues pour les requêtes complexes tout en imposant des sorties directes pour renforcer l'ancrage visuel. Deuxièmement, le façonnage par l'entropie borne étroitement la zone d'exploration du modèle, empêchant efficacement à la fois l'effondrement et l'explosion de l'entropie. En intégrant ces méthodologies, nous présentons OpenVLThinkerV2, un modèle multimodal généraliste hautement robuste. Des évaluations approfondies sur 18 benchmarks diversifiés démontrent ses performances supérieures par rapport aux modèles open-source solides et aux principaux modèles propriétaires de pointe.

English

Group Relative Policy Optimization (GRPO) has emerged as the de facto Reinforcement Learning (RL) objective driving recent advancements in Multimodal Large Language Models. However, extending this success to open-source multimodal generalist models remains heavily constrained by two primary challenges: the extreme variance in reward topologies across diverse visual tasks, and the inherent difficulty of balancing fine-grained perception with multi-step reasoning capabilities. To address these issues, we introduce Gaussian GRPO (G^2RPO), a novel RL training objective that replaces standard linear scaling with non-linear distributional matching. By mathematically forcing the advantage distribution of any given task to strictly converge to a standard normal distribution, N(0,1), G^2RPO theoretically ensures inter-task gradient equity, mitigates vulnerabilities to heavy-tail outliers, and offers symmetric update for positive and negative rewards. Leveraging the enhanced training stability provided by G^2RPO, we introduce two task-level shaping mechanisms to seamlessly balance perception and reasoning. First, response length shaping dynamically elicits extended reasoning chains for complex queries while enforce direct outputs to bolster visual grounding. Second, entropy shaping tightly bounds the model's exploration zone, effectively preventing both entropy collapse and entropy explosion. Integrating these methodologies, we present OpenVLThinkerV2, a highly robust, general-purpose multimodal model. Extensive evaluations across 18 diverse benchmarks demonstrate its superior performance over strong open-source and leading proprietary frontier models.

OpenVLThinkerV2 : Un modèle généraliste de raisonnement multimodal pour les tâches visuelles multi-domaines

OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

Résumé

Support