ChatPaper.aiChatPaper

Vero: Ein offenes RL-Rezept für allgemeines visuelles Schließen

Vero: An Open RL Recipe for General Visual Reasoning

April 6, 2026
Autoren: Gabriel Sarch, Linrong Cai, Qunzhong Wang, Haoyang Wu, Danqi Chen, Zhuang Liu
cs.AI

Zusammenfassung

Was braucht es, um einen visuellen Reasoner zu entwickeln, der über Diagramme, Wissenschaft, räumliches Verständnis und offene Aufgaben hinweg funktioniert? Die leistungsstärksten Vision-Language-Modelle (VLMs) zeigen, dass ein so breites visuelles Reasoning in Reichweite ist, doch die genaue Methode dahinter bleibt unklar, versteckt in proprietären Reinforcement-Learning-(RL-)Pipelines mit nicht-öffentlichen Daten. Wir stellen Vero vor, eine Familie vollständig offener VLMs, die auf verschiedenen Aufgaben des visuellen Reasonings mit vorhandenen Open-Weight-Modellen gleichzieht oder diese übertrifft. Wir skalieren RL-Daten und Belohnungen über sechs breite Aufgabenkategorien hinweg, erstellen Vero-600K – einen Datensatz mit 600.000 Beispielen aus 59 Datensätzen – und entwerfen aufgabenorientierte Belohnungsfunktionen, die heterogene Antwortformate handhaben. Vero erreicht state-of-the-art Leistung und verbessert vier Basismodelle im Durchschnitt um 3,7–5,5 Punkte auf VeroEval, unserer Sammlung von 30 anspruchsvollen Benchmarks. Ausgehend von Qwen3-VL-8B-Instruct übertrifft Vero Qwen3-VL-8B-Thinking auf 23 von 30 Benchmarks ohne zusätzliche proprietäre Denkdaten. Beim Training vom gleichen Basismodell aus übertrifft Vero-600K vorhandene RL-Datensätze über alle Aufgabenkategorien hinweg. Systematische Ablationstudien zeigen, dass verschiedene Aufgabenkategorien qualitativ unterschiedliche Reasoning-Muster hervorrufen, die isoliert nur schlecht übertragbar sind, was nahelegt, dass eine breite Datenabdeckung der primäre Treiber für starke RL-Skalierung ist. Alle Daten, Code und Modelle werden veröffentlicht.
English
What does it take to build a visual reasoner that works across charts, science, spatial understanding, and open-ended tasks? The strongest vision-language models (VLMs) show such broad visual reasoning is within reach, but the recipe behind them remains unclear, locked behind proprietary reinforcement learning (RL) pipelines with non-public data. We introduce Vero, a family of fully open VLMs that matches or exceeds existing open-weight models across diverse visual reasoning tasks. We scale RL data and rewards across six broad task categories, constructing Vero-600K, a 600K-sample dataset from 59 datasets, and designing task-routed rewards that handle heterogeneous answer formats. Vero achieves state-of-the-art performance, improving over four base models by 3.7-5.5 points on average across VeroEval, our suite of 30 challenging benchmarks. Starting from Qwen3-VL-8B-Instruct, Vero outperforms Qwen3-VL-8B-Thinking on 23 of 30 benchmarks without additional proprietary thinking data. When trained from the same base model, Vero-600K exceeds existing RL datasets across task categories. Systematic ablations reveal that different task categories elicit qualitatively distinct reasoning patterns that transfer poorly in isolation, suggesting that broad data coverage is the primary driver of strong RL scaling. All data, code, and models are released.
PDF170April 8, 2026