OpenVLThinkerV2: Een generalistisch multimodaal redeneermodel voor visuele taken in meerdere domeinen

Samenvatting

Group Relative Policy Optimization (GRPO) is naar voren gekomen als de feitelijke Reinforcement Learning (RL)-doelstelling die de recente vooruitgang in Multimodale Large Language Models aanstuurt. Het uitbreiden van dit succes naar opensource multimodale generalistische modellen wordt echter sterk beperkt door twee primaire uitdagingen: de extreme variantie in reward-topologieën over diverse visuele taken, en de inherente moeilijkheid om fijnmazige perceptie in evenwicht te brengen met meerstaps redeneervermogen. Om deze problemen aan te pakken, introduceren we Gaussian GRPO (G²RPO), een nieuwe RL-trainingsdoelstelling die standaard lineaire schaling vervangt door niet-lineaire distributionele matching. Door wiskundig af te dwingen dat de advantage-verdeling van een gegeven taak strikt convergeert naar een standaardnormale verdeling, N(0,1), garandeert G²RPO theoretisch inter-task gradient-gelijkwaardigheid, vermindert het de kwetsbaarheid voor uitschieters met zware staarten en biedt het symmetrische updates voor positieve en negatieve rewards. Gebruikmakend van de verbeterde trainigsstabiliteit van G²RPO, introduceren we twee taakniveau shaping-mechanismen om naadloos perceptie en redeneren in balans te brengen. Ten eerste: response length shaping, dat dynamisch uitgebreide redeneerketens oproept voor complexe queries terwijl het directe outputs afdwingt om visuele grounding te versterken. Ten tweede: entropy shaping, dat de exploratiezone van het model strak begrenst en effectief zowel entropie-instorting als entropie-explosie voorkomt. Door integratie van deze methodologieën presenteren we OpenVLThinkerV2, een uiterst robuust, algemeen multimodaal model. Uitgebreide evaluaties over 18 diverse benchmarks tonen zijn superieure prestaties aan ten opzichte van sterke opensource- en toonaangevende propriëtaire frontier-modellen.

English

Group Relative Policy Optimization (GRPO) has emerged as the de facto Reinforcement Learning (RL) objective driving recent advancements in Multimodal Large Language Models. However, extending this success to open-source multimodal generalist models remains heavily constrained by two primary challenges: the extreme variance in reward topologies across diverse visual tasks, and the inherent difficulty of balancing fine-grained perception with multi-step reasoning capabilities. To address these issues, we introduce Gaussian GRPO (G^2RPO), a novel RL training objective that replaces standard linear scaling with non-linear distributional matching. By mathematically forcing the advantage distribution of any given task to strictly converge to a standard normal distribution, N(0,1), G^2RPO theoretically ensures inter-task gradient equity, mitigates vulnerabilities to heavy-tail outliers, and offers symmetric update for positive and negative rewards. Leveraging the enhanced training stability provided by G^2RPO, we introduce two task-level shaping mechanisms to seamlessly balance perception and reasoning. First, response length shaping dynamically elicits extended reasoning chains for complex queries while enforce direct outputs to bolster visual grounding. Second, entropy shaping tightly bounds the model's exploration zone, effectively preventing both entropy collapse and entropy explosion. Integrating these methodologies, we present OpenVLThinkerV2, a highly robust, general-purpose multimodal model. Extensive evaluations across 18 diverse benchmarks demonstrate its superior performance over strong open-source and leading proprietary frontier models.

OpenVLThinkerV2: Een generalistisch multimodaal redeneermodel voor visuele taken in meerdere domeinen

OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

Samenvatting

Support