ChatPaper.aiChatPaper

Vero: 汎視覚推論のためのオープンな強化学習レシピ

Vero: An Open RL Recipe for General Visual Reasoning

April 6, 2026
著者: Gabriel Sarch, Linrong Cai, Qunzhong Wang, Haoyang Wu, Danqi Chen, Zhuang Liu
cs.AI

要旨

チャート、科学、空間理解、自由回答タスクにまたがって機能するビジュアル推論器を構築するには何が必要か? 最先端の視覚言語モデル(VLM)は、このような広範な視覚推論が実現可能であることを示しているが、その構築手法は不明瞭で、非公開データを用いた独自の強化学習(RL)パイプラインに隠されている。我々は、多様な視覚推論タスクにおいて既存のオープンウェイトモデルに匹敵し、あるいは凌駕する、完全にオープンなVLMファミリー「Vero」を提案する。6つの広範なタスクカテゴリにわたってRLデータと報酬をスケーリングし、59のデータセットから60万サンプルのデータセット「Vero-600K」を構築し、異種混在の回答形式を扱うタスクルーティング報酬を設計した。Veroは最先端の性能を達成し、30の挑戦的ベンチマークから成る評価スイート「VeroEval」において、4つのベースモデルに対し平均3.7~5.5ポイント向上させた。Qwen3-VL-8B-Instructを出発点としたVeroは、追加の独自思考データなしで、30ベンチマーク中23においてQwen3-VL-8B-Thinkingを上回った。同一のベースモデルから学習した場合、Vero-600Kはタスクカテゴリ全体で既存のRLデータセットを凌駕する。体系的なアブレーション研究により、異なるタスクカテゴリは質的に異なる推論パターンを引き出し、単独では転移が困難であることが明らかとなり、強力なRLスケーリングの主要因は広範なデータカバレッジであることが示唆された。全てのデータ、コード、モデルを公開する。
English
What does it take to build a visual reasoner that works across charts, science, spatial understanding, and open-ended tasks? The strongest vision-language models (VLMs) show such broad visual reasoning is within reach, but the recipe behind them remains unclear, locked behind proprietary reinforcement learning (RL) pipelines with non-public data. We introduce Vero, a family of fully open VLMs that matches or exceeds existing open-weight models across diverse visual reasoning tasks. We scale RL data and rewards across six broad task categories, constructing Vero-600K, a 600K-sample dataset from 59 datasets, and designing task-routed rewards that handle heterogeneous answer formats. Vero achieves state-of-the-art performance, improving over four base models by 3.7-5.5 points on average across VeroEval, our suite of 30 challenging benchmarks. Starting from Qwen3-VL-8B-Instruct, Vero outperforms Qwen3-VL-8B-Thinking on 23 of 30 benchmarks without additional proprietary thinking data. When trained from the same base model, Vero-600K exceeds existing RL datasets across task categories. Systematic ablations reveal that different task categories elicit qualitatively distinct reasoning patterns that transfer poorly in isolation, suggesting that broad data coverage is the primary driver of strong RL scaling. All data, code, and models are released.
PDF170April 8, 2026