SynthRL : Mise à l'échelle du raisonnement visuel grâce à la synthèse de données vérifiables
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis
June 2, 2025
Auteurs: Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh
cs.AI
Résumé
Les modèles vision-langage (VLMs) entraînés par apprentissage par renforcement avec récompense vérifiable (RLVR) ont montré des progrès notables dans la mise à l'échelle efficace du calcul au moment des tests. Dans ce travail, nous étudions comment les données RL synthétisées peuvent encore améliorer le RLVR. À cette fin, nous proposons SynthRL, un pipeline évolutif et garanti pour la mise à l'échelle automatique des données dans l'entraînement RL orienté raisonnement. SynthRL comprend trois étapes clés : (1) la sélection de questions de départ avec une distribution appropriée, (2) leur augmentation en variantes plus difficiles tout en préservant les réponses originales, et (3) une étape de vérification garantie qui assure une correction quasi parfaite et une augmentation de la difficulté. Nos expériences empiriques démontrent l'évolutivité et l'efficacité de SynthRL. Appliqué au jeu de données MMK12, SynthRL synthétise plus de 3,3K questions supplémentaires vérifiables et difficiles à partir d'environ 8K échantillons de départ. Les modèles entraînés avec nos données synthétisées obtiennent des gains constants sur cinq benchmarks de raisonnement mathématique visuel hors domaine, avec une amélioration significative par rapport aux modèles de base entraînés uniquement sur les données de départ. Notamment, une analyse détaillée révèle que les gains sont plus prononcés sur les échantillons d'évaluation les plus difficiles, mettant en évidence l'efficacité de SynthRL pour susciter des schémas de raisonnement plus profonds et complexes.
English
Vision-language models (VLMs) trained via reinforcement learning with
verifiable reward (RLVR) have shown notable progress in scaling test-time
compute effectively. In this work, we investigate how synthesized RL data can
further improve RLVR. To this end, we propose SynthRL-a scalable and
guaranteed pipeline for automatic data scaling in reasoning-oriented RL
training. SynthRL comprises three key stages: (1) selecting seed questions with
appropriate distribution, (2) augmenting them into more challenging variants
while preserving the original answers, and (3) a guaranteed verification stage
that ensures near-perfect correctness and difficulty enhancement. Our empirical
experiments demonstrate SynthRL's scalability and effectiveness. When applied
to the MMK12 dataset, SynthRL synthesizes over 3.3K additional verifiable,
challenging questions from approximately 8K seed samples. Models trained with
our synthesized data achieve consistent gains across five out-of-domain visual
math reasoning benchmarks, with a significant improvement over baseline models
trained on seed data alone. Notably, detailed analysis reveals that the gains
are more pronounced on the most challenging evaluation samples, highlighting
SynthRL's effectiveness in eliciting deeper and more complex reasoning
patterns.