ChatPaper.aiChatPaper

Vero: 범용 시각 추론을 위한 공개 RL 레시피

Vero: An Open RL Recipe for General Visual Reasoning

April 6, 2026
저자: Gabriel Sarch, Linrong Cai, Qunzhong Wang, Haoyang Wu, Danqi Chen, Zhuang Liu
cs.AI

초록

차트 이해, 과학 분석, 공간 인식, 개방형 과제에 이르기까지 다양한 영역에서 작동하는 시각 추론 모델을 구축하려면 무엇이 필요할까? 최고 성능의 시각-언어 모델(VLM)들은 이러한 포괄적인 시각 추론이 가능함을 보여주지만, 그 성공 비결은 공개되지 않은 데이터를 활용한 독점적 강화학습(RL) 파이프라인 뒤에 가려져 명확히 알려지지 않았습니다. 우리는 다양한 시각 추론 과제에서 기존 오픈 가중치 모델들을 능가하거나 동등한 성능을 보이는 완전 오픈형 VLM 패밀리인 Vero를 소개합니다. 우리는 6가지 광범위한 과제 유범주에 걸쳐 RL 데이터와 보상을 확장하여 59개 데이터셋으로부터 600K 샘플로 구성된 Vero-600K 데이터셋을 구축하고, 이질적인 응답 형식을 처리하는 과제 기반 라우팅 보상 체계를 설계했습니다. Vero는 30개의 도전적인 벤치마크로 구성된 우리의 평가 세트 VeroEval에서 4가지 기본 모델 대비 평균 3.7-5.5점의 성능 향상을 이루며 최첨단 성능을 달성했습니다. Qwen3-VL-8B-Instruct를 시작점으로 한 Vero는 별도의 독점 사고 데이터 없이도 30개 벤치마크 중 23개에서 Qwen3-VL-8B-Thinking을 능가했습니다. 동일한 기본 모델에서 훈련될 때, Vero-600K는 모든 과제 범주에서 기존 RL 데이터셋들을 뛰어넘었습니다. 체계적인 애블레이션 연구는 서로 다른 과제 범주가 질적으로 구분되는 추론 패턴을 유발하며, 이러한 패턴들은 단독으로는 잘 전이되지 않음을 보여주어 강력한 RL 확장의 주요 동인이 광범위한 데이터 커버리지임을 시사합니다. 모든 데이터, 코드, 모델은 공개됩니다.
English
What does it take to build a visual reasoner that works across charts, science, spatial understanding, and open-ended tasks? The strongest vision-language models (VLMs) show such broad visual reasoning is within reach, but the recipe behind them remains unclear, locked behind proprietary reinforcement learning (RL) pipelines with non-public data. We introduce Vero, a family of fully open VLMs that matches or exceeds existing open-weight models across diverse visual reasoning tasks. We scale RL data and rewards across six broad task categories, constructing Vero-600K, a 600K-sample dataset from 59 datasets, and designing task-routed rewards that handle heterogeneous answer formats. Vero achieves state-of-the-art performance, improving over four base models by 3.7-5.5 points on average across VeroEval, our suite of 30 challenging benchmarks. Starting from Qwen3-VL-8B-Instruct, Vero outperforms Qwen3-VL-8B-Thinking on 23 of 30 benchmarks without additional proprietary thinking data. When trained from the same base model, Vero-600K exceeds existing RL datasets across task categories. Systematic ablations reveal that different task categories elicit qualitatively distinct reasoning patterns that transfer poorly in isolation, suggesting that broad data coverage is the primary driver of strong RL scaling. All data, code, and models are released.
PDF170April 8, 2026