ChatPaper.aiChatPaper

SynthRL : Mise à l'échelle du raisonnement visuel grâce à la synthèse de données vérifiables

SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

June 2, 2025
Auteurs: Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh
cs.AI

Résumé

Les modèles vision-langage (VLMs) entraînés par apprentissage par renforcement avec récompense vérifiable (RLVR) ont montré des progrès notables dans la mise à l'échelle efficace du calcul au moment des tests. Dans ce travail, nous étudions comment les données RL synthétisées peuvent encore améliorer le RLVR. À cette fin, nous proposons SynthRL, un pipeline évolutif et garanti pour la mise à l'échelle automatique des données dans l'entraînement RL orienté raisonnement. SynthRL comprend trois étapes clés : (1) la sélection de questions de départ avec une distribution appropriée, (2) leur augmentation en variantes plus difficiles tout en préservant les réponses originales, et (3) une étape de vérification garantie qui assure une correction quasi parfaite et une augmentation de la difficulté. Nos expériences empiriques démontrent l'évolutivité et l'efficacité de SynthRL. Appliqué au jeu de données MMK12, SynthRL synthétise plus de 3,3K questions supplémentaires vérifiables et difficiles à partir d'environ 8K échantillons de départ. Les modèles entraînés avec nos données synthétisées obtiennent des gains constants sur cinq benchmarks de raisonnement mathématique visuel hors domaine, avec une amélioration significative par rapport aux modèles de base entraînés uniquement sur les données de départ. Notamment, une analyse détaillée révèle que les gains sont plus prononcés sur les échantillons d'évaluation les plus difficiles, mettant en évidence l'efficacité de SynthRL pour susciter des schémas de raisonnement plus profonds et complexes.
English
Vision-language models (VLMs) trained via reinforcement learning with verifiable reward (RLVR) have shown notable progress in scaling test-time compute effectively. In this work, we investigate how synthesized RL data can further improve RLVR. To this end, we propose SynthRL-a scalable and guaranteed pipeline for automatic data scaling in reasoning-oriented RL training. SynthRL comprises three key stages: (1) selecting seed questions with appropriate distribution, (2) augmenting them into more challenging variants while preserving the original answers, and (3) a guaranteed verification stage that ensures near-perfect correctness and difficulty enhancement. Our empirical experiments demonstrate SynthRL's scalability and effectiveness. When applied to the MMK12 dataset, SynthRL synthesizes over 3.3K additional verifiable, challenging questions from approximately 8K seed samples. Models trained with our synthesized data achieve consistent gains across five out-of-domain visual math reasoning benchmarks, with a significant improvement over baseline models trained on seed data alone. Notably, detailed analysis reveals that the gains are more pronounced on the most challenging evaluation samples, highlighting SynthRL's effectiveness in eliciting deeper and more complex reasoning patterns.
PDF492June 4, 2025