OpenVLThinkerV2: Un Modello Generalista di Ragionamento Multimodale per Compiti Visivi in Multi-Domini

Abstract

L'ottimizzazione delle politiche relative al gruppo (GRPO) è emersa come l'obiettivo de facto dell'apprendimento per rinforzo (RL) che guida i recenti progressi nei modelli linguistici multimodali di grandi dimensioni. Tuttavia, estendere questo successo a modelli generalisti multimodali open-source rimane fortemente limitato da due sfide primarie: l'estrema varianza nelle topologie di ricompensa tra diversi compiti visivi e l'intrinseca difficoltà di bilanciare una percezione fine con capacità di ragionamento a più passi. Per affrontare questi problemi, introduciamo l'ottimizzazione delle politiche relative al gruppo gaussiana (G²RPO), un nuovo obiettivo di addestramento RL che sostituisce la scalatura lineare standard con una corrispondenza distribuzionale non lineare. Forzando matematicamente la distribuzione del vantaggio di qualsiasi dato compito a convergere rigorosamente verso una distribuzione normale standard, N(0,1), G²RPO garantisce teoricamente l'equità del gradiente tra i compiti, mitiga le vulnerabilità ai valori anomali a coda pesante e offre un aggiornamento simmetrico per ricompense positive e negative. Sfruttando la stabilità di addestramento potenziata fornita da G²RPO, introduciamo due meccanismi di modellazione a livello di compito per bilanciare in modo fluido percezione e ragionamento. Primo, la modellazione della lunghezza della risposta elicita dinamicamente catene di ragionamento estese per query complesse, mentre impone output diretti per rafforzare l'ancoraggio visivo. Secondo, la modellazione dell'entropia delimita rigorosamente la zona di esplorazione del modello, prevenendo efficacemente sia il collasso che l'esplosione dell'entropia. Integrando queste metodologie, presentiamo OpenVLThinkerV2, un modello multimodale generico altamente robusto. Valutazioni estese su 18 benchmark diversi ne dimostrano le prestazioni superiori rispetto a solidi modelli open-source e a modelli proprietari all'avanguardia.

English

Group Relative Policy Optimization (GRPO) has emerged as the de facto Reinforcement Learning (RL) objective driving recent advancements in Multimodal Large Language Models. However, extending this success to open-source multimodal generalist models remains heavily constrained by two primary challenges: the extreme variance in reward topologies across diverse visual tasks, and the inherent difficulty of balancing fine-grained perception with multi-step reasoning capabilities. To address these issues, we introduce Gaussian GRPO (G^2RPO), a novel RL training objective that replaces standard linear scaling with non-linear distributional matching. By mathematically forcing the advantage distribution of any given task to strictly converge to a standard normal distribution, N(0,1), G^2RPO theoretically ensures inter-task gradient equity, mitigates vulnerabilities to heavy-tail outliers, and offers symmetric update for positive and negative rewards. Leveraging the enhanced training stability provided by G^2RPO, we introduce two task-level shaping mechanisms to seamlessly balance perception and reasoning. First, response length shaping dynamically elicits extended reasoning chains for complex queries while enforce direct outputs to bolster visual grounding. Second, entropy shaping tightly bounds the model's exploration zone, effectively preventing both entropy collapse and entropy explosion. Integrating these methodologies, we present OpenVLThinkerV2, a highly robust, general-purpose multimodal model. Extensive evaluations across 18 diverse benchmarks demonstrate its superior performance over strong open-source and leading proprietary frontier models.

OpenVLThinkerV2: Un Modello Generalista di Ragionamento Multimodale per Compiti Visivi in Multi-Domini

OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

Abstract

Support