OpenVLThinkerV2: Um Modelo Generalista de Raciocínio Multimodal para Tarefas Visuais em Múltiplos Domínios

Resumo

O Group Relative Policy Optimization (GRPO) emergiu como o objetivo de facto de Aprendizagem por Reforço (RL) que impulsiona os avanços recentes em Modelos de Linguagem Multimodais de Grande Escala. No entanto, estender este sucesso a modelos generalistas multimodais de código aberto permanece severamente limitado por dois desafios principais: a variância extrema nas topologias de recompensa entre diversas tarefas visuais e a dificuldade inerente de equilibrar a perceção de alto detalhe com capacidades de raciocínio de múltiplos passos. Para resolver estas questões, introduzimos o Gaussian GRPO (G²RPO), um novo objetivo de treino de RL que substitui a escala linear padrão por correspondência distribucional não linear. Ao forçar matematicamente a distribuição de vantagem de qualquer tarefa a convergir estritamente para uma distribuição normal padrão, N(0,1), o G²RPO garante teoricamente equidade de gradiente entre tarefas, mitiga vulnerabilidades a *outliers* de cauda pesada e oferece uma atualização simétrica para recompensas positivas e negativas. Aproveitando a estabilidade de treino melhorada fornecida pelo G²RPO, introduzimos dois mecanismos de modelação a nível de tarefa para equilibrar harmoniosamente a perceção e o raciocínio. Primeiro, a modelação do comprimento da resposta elicia dinamicamente cadeias de raciocínio estendidas para consultas complexas, enquanto aplica saídas diretas para reforçar o fundamento visual. Segundo, a modelação da entropia limita estritamente a zona de exploração do modelo, prevenindo eficazmente tanto o colapso como a explosão de entropia. Integrando estas metodologias, apresentamos o OpenVLThinkerV2, um modelo multimodal de propósito geral altamente robusto. Avaliações extensas em 18 *benchmarks* diversos demonstram o seu desempenho superior face a fortes modelos de código aberto e a modelos proprietários líderes de fronteira.

English

Group Relative Policy Optimization (GRPO) has emerged as the de facto Reinforcement Learning (RL) objective driving recent advancements in Multimodal Large Language Models. However, extending this success to open-source multimodal generalist models remains heavily constrained by two primary challenges: the extreme variance in reward topologies across diverse visual tasks, and the inherent difficulty of balancing fine-grained perception with multi-step reasoning capabilities. To address these issues, we introduce Gaussian GRPO (G^2RPO), a novel RL training objective that replaces standard linear scaling with non-linear distributional matching. By mathematically forcing the advantage distribution of any given task to strictly converge to a standard normal distribution, N(0,1), G^2RPO theoretically ensures inter-task gradient equity, mitigates vulnerabilities to heavy-tail outliers, and offers symmetric update for positive and negative rewards. Leveraging the enhanced training stability provided by G^2RPO, we introduce two task-level shaping mechanisms to seamlessly balance perception and reasoning. First, response length shaping dynamically elicits extended reasoning chains for complex queries while enforce direct outputs to bolster visual grounding. Second, entropy shaping tightly bounds the model's exploration zone, effectively preventing both entropy collapse and entropy explosion. Integrating these methodologies, we present OpenVLThinkerV2, a highly robust, general-purpose multimodal model. Extensive evaluations across 18 diverse benchmarks demonstrate its superior performance over strong open-source and leading proprietary frontier models.

OpenVLThinkerV2: Um Modelo Generalista de Raciocínio Multimodal para Tarefas Visuais em Múltiplos Domínios

OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

Resumo

Support