SynthRL: Escalando el razonamiento visual con síntesis de datos verificable
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis
June 2, 2025
Autores: Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh
cs.AI
Resumen
Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) entrenados mediante aprendizaje por refuerzo con recompensa verificable (RLVR, por sus siglas en inglés) han mostrado avances notables en la escalabilidad efectiva del cómputo en tiempo de prueba. En este trabajo, investigamos cómo los datos sintetizados de RL pueden mejorar aún más el RLVR. Para ello, proponemos SynthRL, una pipeline escalable y garantizada para el escalamiento automático de datos en el entrenamiento de RL orientado al razonamiento. SynthRL consta de tres etapas clave: (1) selección de preguntas semilla con una distribución adecuada, (2) aumento de estas preguntas en variantes más desafiantes mientras se preservan las respuestas originales, y (3) una etapa de verificación garantizada que asegura una corrección casi perfecta y un aumento en la dificultad. Nuestros experimentos empíricos demuestran la escalabilidad y efectividad de SynthRL. Al aplicarlo al conjunto de datos MMK12, SynthRL sintetiza más de 3.3K preguntas adicionales verificables y desafiantes a partir de aproximadamente 8K muestras semilla. Los modelos entrenados con nuestros datos sintetizados logran mejoras consistentes en cinco benchmarks de razonamiento matemático visual fuera del dominio, con una mejora significativa sobre los modelos base entrenados únicamente con datos semilla. Cabe destacar que un análisis detallado revela que las mejoras son más pronunciadas en las muestras de evaluación más desafiantes, lo que resalta la efectividad de SynthRL para elicitar patrones de razonamiento más profundos y complejos.
English
Vision-language models (VLMs) trained via reinforcement learning with
verifiable reward (RLVR) have shown notable progress in scaling test-time
compute effectively. In this work, we investigate how synthesized RL data can
further improve RLVR. To this end, we propose SynthRL-a scalable and
guaranteed pipeline for automatic data scaling in reasoning-oriented RL
training. SynthRL comprises three key stages: (1) selecting seed questions with
appropriate distribution, (2) augmenting them into more challenging variants
while preserving the original answers, and (3) a guaranteed verification stage
that ensures near-perfect correctness and difficulty enhancement. Our empirical
experiments demonstrate SynthRL's scalability and effectiveness. When applied
to the MMK12 dataset, SynthRL synthesizes over 3.3K additional verifiable,
challenging questions from approximately 8K seed samples. Models trained with
our synthesized data achieve consistent gains across five out-of-domain visual
math reasoning benchmarks, with a significant improvement over baseline models
trained on seed data alone. Notably, detailed analysis reveals that the gains
are more pronounced on the most challenging evaluation samples, highlighting
SynthRL's effectiveness in eliciting deeper and more complex reasoning
patterns.