SynthRL: Escalando el razonamiento visual con síntesis de datos verificable

Resumen

Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) entrenados mediante aprendizaje por refuerzo con recompensa verificable (RLVR, por sus siglas en inglés) han mostrado avances notables en la escalabilidad efectiva del cómputo en tiempo de prueba. En este trabajo, investigamos cómo los datos sintetizados de RL pueden mejorar aún más el RLVR. Para ello, proponemos SynthRL, una pipeline escalable y garantizada para el escalamiento automático de datos en el entrenamiento de RL orientado al razonamiento. SynthRL consta de tres etapas clave: (1) selección de preguntas semilla con una distribución adecuada, (2) aumento de estas preguntas en variantes más desafiantes mientras se preservan las respuestas originales, y (3) una etapa de verificación garantizada que asegura una corrección casi perfecta y un aumento en la dificultad. Nuestros experimentos empíricos demuestran la escalabilidad y efectividad de SynthRL. Al aplicarlo al conjunto de datos MMK12, SynthRL sintetiza más de 3.3K preguntas adicionales verificables y desafiantes a partir de aproximadamente 8K muestras semilla. Los modelos entrenados con nuestros datos sintetizados logran mejoras consistentes en cinco benchmarks de razonamiento matemático visual fuera del dominio, con una mejora significativa sobre los modelos base entrenados únicamente con datos semilla. Cabe destacar que un análisis detallado revela que las mejoras son más pronunciadas en las muestras de evaluación más desafiantes, lo que resalta la efectividad de SynthRL para elicitar patrones de razonamiento más profundos y complejos.

English

Vision-language models (VLMs) trained via reinforcement learning with verifiable reward (RLVR) have shown notable progress in scaling test-time compute effectively. In this work, we investigate how synthesized RL data can further improve RLVR. To this end, we propose SynthRL-a scalable and guaranteed pipeline for automatic data scaling in reasoning-oriented RL training. SynthRL comprises three key stages: (1) selecting seed questions with appropriate distribution, (2) augmenting them into more challenging variants while preserving the original answers, and (3) a guaranteed verification stage that ensures near-perfect correctness and difficulty enhancement. Our empirical experiments demonstrate SynthRL's scalability and effectiveness. When applied to the MMK12 dataset, SynthRL synthesizes over 3.3K additional verifiable, challenging questions from approximately 8K seed samples. Models trained with our synthesized data achieve consistent gains across five out-of-domain visual math reasoning benchmarks, with a significant improvement over baseline models trained on seed data alone. Notably, detailed analysis reveals that the gains are more pronounced on the most challenging evaluation samples, highlighting SynthRL's effectiveness in eliciting deeper and more complex reasoning patterns.

SynthRL: Escalando el razonamiento visual con síntesis de datos verificable

SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

Resumen

Support