OpenVLThinkerV2: Ein generalistisches multimodales Reasoning-Modell für multidisziplinäre visuelle Aufgaben
OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks
April 9, 2026
Autoren: Wenbo Hu, Xin Chen, Yan Gao-Tian, Yihe Deng, Nanyun Peng, Kai-Wei Chang
cs.AI
Zusammenfassung
Die Group Relative Policy Optimization (GRPO) hat sich als de-facto Reinforcement-Learning-(RL)-Zielsetzung etabliert, die die jüngsten Fortschritte bei multimodalen großen Sprachmodellen vorantreibt. Die Übertragung dieses Erfolgs auf quelloffene multimodale Generalisten-Modelle wird jedoch nach wie vor stark durch zwei Hauptprobleme eingeschränkt: die extreme Varianz in den Reward-Topologien über verschiedene visuelle Aufgaben hinweg und die inhärente Schwierigkeit, feinkörnige Wahrnehmung mit mehrstufigen Reasoning-Fähigkeiten in Einklang zu bringen. Um diese Probleme zu adressieren, führen wir Gaussian GRPO (G²RPO) ein, eine neuartige RL-Trainingszielsetzung, die die Standard-Skalierung durch nicht-lineares Distribution-Matching ersetzt. Indem mathematisch erzwungen wird, dass die Advantage-Verteilung einer beliebigen Aufgabe streng gegen eine Standardnormalverteilung N(0,1) konvergiert, gewährleistet G²RPO theoretisch Gradientengerechtigkeit zwischen Aufgaben, mildert die Anfälligkeit für Ausreißer mit schweren Rändern und bietet symmetrische Updates für positive und negative Rewards. Gestützt auf die durch G²RPO verbesserte Trainingsstabilität führen wir zwei Mechanismen zur Aufgaben-Anpassung ein, um Wahrnehmung und Reasoning nahtlos auszubalancieren. Erstelic: Die Anpassung der Antwortlänge ruft bei komplexen Anfragen dynamisch längere Reasoning-Ketten hervor, während sie bei einfachen Anfragen direkte Ausgaben erzwingt, um die visuelle Verankerung zu stärken. Zweitens: Die Entropie-Anpassung begrenzt den Explorationsbereich des Modells streng und verhindert so effektiv sowohl Entropiekollaps als auch Entropieexplosion. Durch die Integration dieser Methodiken präsentieren wir OpenVLThinkerV2, ein äußerst robuster, allgemeiner multimodaler Modell. Umfangreiche Evaluierungen über 18 verschiedene Benchmarks hinweg demonstrieren seine überlegene Leistung im Vergleich zu starken quelloffenen und führenden proprietären Frontier-Modellen.
English
Group Relative Policy Optimization (GRPO) has emerged as the de facto Reinforcement Learning (RL) objective driving recent advancements in Multimodal Large Language Models. However, extending this success to open-source multimodal generalist models remains heavily constrained by two primary challenges: the extreme variance in reward topologies across diverse visual tasks, and the inherent difficulty of balancing fine-grained perception with multi-step reasoning capabilities. To address these issues, we introduce Gaussian GRPO (G^2RPO), a novel RL training objective that replaces standard linear scaling with non-linear distributional matching. By mathematically forcing the advantage distribution of any given task to strictly converge to a standard normal distribution, N(0,1), G^2RPO theoretically ensures inter-task gradient equity, mitigates vulnerabilities to heavy-tail outliers, and offers symmetric update for positive and negative rewards. Leveraging the enhanced training stability provided by G^2RPO, we introduce two task-level shaping mechanisms to seamlessly balance perception and reasoning. First, response length shaping dynamically elicits extended reasoning chains for complex queries while enforce direct outputs to bolster visual grounding. Second, entropy shaping tightly bounds the model's exploration zone, effectively preventing both entropy collapse and entropy explosion. Integrating these methodologies, we present OpenVLThinkerV2, a highly robust, general-purpose multimodal model. Extensive evaluations across 18 diverse benchmarks demonstrate its superior performance over strong open-source and leading proprietary frontier models.