OpenVLThinkerV2: Универсальная мультимодальная модель рассуждений для многодоменных визуальных задач
OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks
April 9, 2026
Авторы: Wenbo Hu, Xin Chen, Yan Gao-Tian, Yihe Deng, Nanyun Peng, Kai-Wei Chang
cs.AI
Аннотация
Групповая относительная оптимизация политики (GRPO) стала фактически стандартной целью обучения с подкреплением (RL), лежащей в основе последних достижений в области мультимодальных больших языковых моделей. Однако распространение этого успеха на открытые мультимодальные модели-универсалы остается серьезно ограниченным двумя основными проблемами: экстремальной вариативностью топологий вознаграждений в разнородных визуальных задачах и присущей сложностью балансировки тонкого восприятия со способностями к многошаговым рассуждениям. Для решения этих проблем мы представляем Гауссову GRPO (G²RPO) — новую цель RL-обучения, которая заменяет стандартное линейное масштабирование на нелинейное распределительное согласование. Математически форсируя строгую сходимость распределения преимуществ для любой конкретной задачи к стандартному нормальному распределению N(0,1), G²RPO теоретически обеспечивает равенство градиентов между задачами, снижает уязвимость к выбросам с тяжелыми хвостами и предлагает симметричное обновление для положительных и отрицательных вознаграждений. Используя повышенную стабильность обучения, обеспечиваемую G²RPO, мы вводим два механизма формирования на уровне задач для бесшовного балансирования восприятия и рассуждений. Во-первых, формирование длины ответа динамически стимулирует развернутые цепочки рассуждений для сложных запросов, одновременно принудительно обеспечивая прямые выводы для усиления визуального заземления. Во-вторых, формирование энтропии жестко ограничивает зону исследования модели, эффективно предотвращая как коллапс, так и взрыв энтропии. Интегрируя эти методики, мы представляем OpenVLThinkerV2 — высоконадежную мультимодальную модель общего назначения. Масштабные оценки на 18 разнообразных бенчмарках демонстрируют ее превосходную производительность по сравнению с сильными открытыми и ведущими проприетарными фронтирными моделями.
English
Group Relative Policy Optimization (GRPO) has emerged as the de facto Reinforcement Learning (RL) objective driving recent advancements in Multimodal Large Language Models. However, extending this success to open-source multimodal generalist models remains heavily constrained by two primary challenges: the extreme variance in reward topologies across diverse visual tasks, and the inherent difficulty of balancing fine-grained perception with multi-step reasoning capabilities. To address these issues, we introduce Gaussian GRPO (G^2RPO), a novel RL training objective that replaces standard linear scaling with non-linear distributional matching. By mathematically forcing the advantage distribution of any given task to strictly converge to a standard normal distribution, N(0,1), G^2RPO theoretically ensures inter-task gradient equity, mitigates vulnerabilities to heavy-tail outliers, and offers symmetric update for positive and negative rewards. Leveraging the enhanced training stability provided by G^2RPO, we introduce two task-level shaping mechanisms to seamlessly balance perception and reasoning. First, response length shaping dynamically elicits extended reasoning chains for complex queries while enforce direct outputs to bolster visual grounding. Second, entropy shaping tightly bounds the model's exploration zone, effectively preventing both entropy collapse and entropy explosion. Integrating these methodologies, we present OpenVLThinkerV2, a highly robust, general-purpose multimodal model. Extensive evaluations across 18 diverse benchmarks demonstrate its superior performance over strong open-source and leading proprietary frontier models.