OpenVLThinkerV2: 다중 영역 시각 작업을 위한 범용 멀티모달 추론 모델
OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks
April 9, 2026
저자: Wenbo Hu, Xin Chen, Yan Gao-Tian, Yihe Deng, Nanyun Peng, Kai-Wei Chang
cs.AI
초록
그룹 상대 정책 최적화(GRPO)는 최근 멀티모달 대규모 언어 모델의 발전을 이끄는 사실상의 강화 학습 목적 함수로 부상했습니다. 그러나 이러한 성공을 오픈소스 멀티모달 일반ist 모델로 확장하는 것은 주로 두 가지 과제로 인해 심각한 제약을 받고 있습니다: 다양한 시각 작업 간의 극심한 보상 토폴로지 변동성, 그리고 세밀한 인식 능력과 다단계 추론 능력 간의 균형을 잡는 고유한 어려움입니다. 이러한 문제를 해결하기 위해 우리는 표준 선형 스케일링을 비선형 분포 매칭으로 대체하는 새로운 강화 학습 목적 함수인 가우시안 GRPO(G^2RPO)를 소개합니다. 특정 작업의 어드벤티지 분포가 표준 정규 분포 N(0,1)에 엄격하게 수렴하도록 수학적으로 강제함으로써, G^2RPO는 이론적으로 작업 간 그래디언트 형평성을 보장하고, 헤비테일 이상치에 대한 취약성을 완화하며, 양의 보상과 음의 보상에 대해 대칭적인 업데이트를 제공합니다. G^2RPO가 제공하는 향상된 훈련 안정성을 활용하여, 우리는 인식과 추론을 원활하게 균형 잡기 위한 두 가지 작업 수준의 형성 메커니즘을 도입합니다. 첫째, 응답 길이 형성은 복잡한 질의에 대해 확장된 추론 체인을 동적으로 유도하는 동시에 시각적 기반을 강화하기 위해 직접적인 출력을 강제합니다. 둘째, 엔트로피 형성은 모델의 탐색 영역을 엄격하게 제한하여 엔트로피 붕괴와 엔트로피 폭발을 효과적으로 방지합니다. 이러한 방법론을 통합하여, 우리는 매우 견고한 범용 멀티모달 모델인 OpenVLThinkerV2를 제시합니다. 18개의 다양한 벤치마크에 걸친 포괄적인 평가를 통해 이 모델이 강력한 오픈소스 및 선도적인 독점 프론티어 모델들을 능가하는 우수한 성능을 보여줍니다.
English
Group Relative Policy Optimization (GRPO) has emerged as the de facto Reinforcement Learning (RL) objective driving recent advancements in Multimodal Large Language Models. However, extending this success to open-source multimodal generalist models remains heavily constrained by two primary challenges: the extreme variance in reward topologies across diverse visual tasks, and the inherent difficulty of balancing fine-grained perception with multi-step reasoning capabilities. To address these issues, we introduce Gaussian GRPO (G^2RPO), a novel RL training objective that replaces standard linear scaling with non-linear distributional matching. By mathematically forcing the advantage distribution of any given task to strictly converge to a standard normal distribution, N(0,1), G^2RPO theoretically ensures inter-task gradient equity, mitigates vulnerabilities to heavy-tail outliers, and offers symmetric update for positive and negative rewards. Leveraging the enhanced training stability provided by G^2RPO, we introduce two task-level shaping mechanisms to seamlessly balance perception and reasoning. First, response length shaping dynamically elicits extended reasoning chains for complex queries while enforce direct outputs to bolster visual grounding. Second, entropy shaping tightly bounds the model's exploration zone, effectively preventing both entropy collapse and entropy explosion. Integrating these methodologies, we present OpenVLThinkerV2, a highly robust, general-purpose multimodal model. Extensive evaluations across 18 diverse benchmarks demonstrate its superior performance over strong open-source and leading proprietary frontier models.