OpenVLThinkerV2: Un Modelo Generalista de Razonamiento Multimodal para Tareas Visuales Multidominio

Resumen

La Optimización de Políticas Relativas de Grupo (GRPO) se ha consolidado como el objetivo de Aprendizaje por Refuerzo (RL) *de facto* que impulsa los avances recientes en los Modelos de Lenguaje Grandes Multimodales. Sin embargo, extender este éxito a modelos generalistas multimodales de código abierto sigue estando muy limitado por dos desafíos principales: la extrema varianza en las topologías de recompensa entre diversas tareas visuales y la inherente dificultad de equilibrar la percepción de grano fino con las capacidades de razonamiento de múltiples pasos. Para abordar estos problemas, presentamos la GRPO Gaussiana (G^2RPO), un novedoso objetivo de entrenamiento de RL que reemplaza el escalado lineal estándar por una correspondencia distribucional no lineal. Al forzar matemáticamente a que la distribución de ventajas de cualquier tarea dada converja estrictamente a una distribución normal estándar, N(0,1), G^2RPO asegura teóricamente la equidad de gradientes entre tareas, mitiga la vulnerabilidad a valores atípicos de cola pesada y ofrece una actualización simétrica para recompensas positivas y negativas. Aprovechando la estabilidad de entrenamiento mejorada que proporciona G^2RPO, introducimos dos mecanismos de modelado a nivel de tarea para equilibrar de forma fluida la percepción y el razonamiento. Primero, el modelado de longitud de respuesta elicita dinámicamente cadenas de razonamiento extendidas para consultas complejas, a la vez que aplica salidas directas para reforzar la base visual. Segundo, el modelado de entropía acota estrechamente la zona de exploración del modelo, previniendo efectivamente tanto el colapso como la explosión de entropía. Integrando estas metodologías, presentamos OpenVLThinkerV2, un modelo multimodal de propósito general altamente robusto. Evaluaciones exhaustivas en 18 benchmarks diversos demuestran su rendimiento superior frente a fuertes modelos de código abierto y a los principales modelos frontera propietarios.

English

Group Relative Policy Optimization (GRPO) has emerged as the de facto Reinforcement Learning (RL) objective driving recent advancements in Multimodal Large Language Models. However, extending this success to open-source multimodal generalist models remains heavily constrained by two primary challenges: the extreme variance in reward topologies across diverse visual tasks, and the inherent difficulty of balancing fine-grained perception with multi-step reasoning capabilities. To address these issues, we introduce Gaussian GRPO (G^2RPO), a novel RL training objective that replaces standard linear scaling with non-linear distributional matching. By mathematically forcing the advantage distribution of any given task to strictly converge to a standard normal distribution, N(0,1), G^2RPO theoretically ensures inter-task gradient equity, mitigates vulnerabilities to heavy-tail outliers, and offers symmetric update for positive and negative rewards. Leveraging the enhanced training stability provided by G^2RPO, we introduce two task-level shaping mechanisms to seamlessly balance perception and reasoning. First, response length shaping dynamically elicits extended reasoning chains for complex queries while enforce direct outputs to bolster visual grounding. Second, entropy shaping tightly bounds the model's exploration zone, effectively preventing both entropy collapse and entropy explosion. Integrating these methodologies, we present OpenVLThinkerV2, a highly robust, general-purpose multimodal model. Extensive evaluations across 18 diverse benchmarks demonstrate its superior performance over strong open-source and leading proprietary frontier models.

OpenVLThinkerV2: Un Modelo Generalista de Razonamiento Multimodal para Tareas Visuales Multidominio

OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

Resumen

Support