SynthRL: Escalonando o Raciocínio Visual com Síntese de Dados Verificáveis
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis
June 2, 2025
Autores: Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh
cs.AI
Resumo
Modelos visão-linguagem (VLMs) treinados por meio de aprendizado por reforço com recompensa verificável (RLVR) têm mostrado progresso notável na escalabilidade eficaz do cálculo em tempo de teste. Neste trabalho, investigamos como dados sintetizados de RL podem aprimorar ainda mais o RLVR. Para isso, propomos o SynthRL — um pipeline escalável e garantido para a ampliação automática de dados em treinamentos de RL orientados ao raciocínio. O SynthRL compreende três etapas principais: (1) seleção de questões iniciais com distribuição apropriada, (2) ampliação delas em variantes mais desafiadoras, preservando as respostas originais, e (3) uma etapa de verificação garantida que assegura correção quase perfeita e aumento da dificuldade. Nossos experimentos empíricos demonstram a escalabilidade e eficácia do SynthRL. Quando aplicado ao conjunto de dados MMK12, o SynthRL sintetiza mais de 3,3 mil questões adicionais verificáveis e desafiadoras a partir de aproximadamente 8 mil amostras iniciais. Modelos treinados com nossos dados sintetizados alcançam ganhos consistentes em cinco benchmarks de raciocínio matemático visual fora do domínio, com uma melhoria significativa em relação aos modelos de base treinados apenas com dados iniciais. Notavelmente, análises detalhadas revelam que os ganhos são mais pronunciados nas amostras de avaliação mais desafiadoras, destacando a eficácia do SynthRL em eliciar padrões de raciocínio mais profundos e complexos.
English
Vision-language models (VLMs) trained via reinforcement learning with
verifiable reward (RLVR) have shown notable progress in scaling test-time
compute effectively. In this work, we investigate how synthesized RL data can
further improve RLVR. To this end, we propose SynthRL-a scalable and
guaranteed pipeline for automatic data scaling in reasoning-oriented RL
training. SynthRL comprises three key stages: (1) selecting seed questions with
appropriate distribution, (2) augmenting them into more challenging variants
while preserving the original answers, and (3) a guaranteed verification stage
that ensures near-perfect correctness and difficulty enhancement. Our empirical
experiments demonstrate SynthRL's scalability and effectiveness. When applied
to the MMK12 dataset, SynthRL synthesizes over 3.3K additional verifiable,
challenging questions from approximately 8K seed samples. Models trained with
our synthesized data achieve consistent gains across five out-of-domain visual
math reasoning benchmarks, with a significant improvement over baseline models
trained on seed data alone. Notably, detailed analysis reveals that the gains
are more pronounced on the most challenging evaluation samples, highlighting
SynthRL's effectiveness in eliciting deeper and more complex reasoning
patterns.