ChatPaper.aiChatPaper

SynthRL: Scalabilità del ragionamento visivo con sintesi di dati verificabili

SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

June 2, 2025
Autori: Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh
cs.AI

Abstract

I modelli visione-linguaggio (VLMs) addestrati tramite apprendimento per rinforzo con ricompensa verificabile (RLVR) hanno mostrato progressi significativi nel ridimensionare efficacemente il calcolo al momento del test. In questo lavoro, investigiamo come i dati RL sintetizzati possano ulteriormente migliorare l'RLVR. A tal fine, proponiamo SynthRL, una pipeline scalabile e garantita per il ridimensionamento automatico dei dati nell'addestramento RL orientato al ragionamento. SynthRL comprende tre fasi chiave: (1) selezione di domande iniziali con una distribuzione appropriata, (2) ampliamento di queste in varianti più complesse preservando le risposte originali, e (3) una fase di verifica garantita che assicura una correttezza quasi perfetta e un aumento della difficoltà. I nostri esperimenti empirici dimostrano la scalabilità e l'efficacia di SynthRL. Applicato al dataset MMK12, SynthRL sintetizza oltre 3.3K ulteriori domande verificabili e complesse a partire da circa 8K campioni iniziali. I modelli addestrati con i nostri dati sintetizzati ottengono miglioramenti consistenti su cinque benchmark di ragionamento matematico visivo fuori dominio, con un significativo avanzamento rispetto ai modelli di base addestrati solo sui dati iniziali. In particolare, un'analisi dettagliata rivela che i guadagni sono più pronunciati sui campioni di valutazione più complessi, evidenziando l'efficacia di SynthRL nell'evocare schemi di ragionamento più profondi e articolati.
English
Vision-language models (VLMs) trained via reinforcement learning with verifiable reward (RLVR) have shown notable progress in scaling test-time compute effectively. In this work, we investigate how synthesized RL data can further improve RLVR. To this end, we propose SynthRL-a scalable and guaranteed pipeline for automatic data scaling in reasoning-oriented RL training. SynthRL comprises three key stages: (1) selecting seed questions with appropriate distribution, (2) augmenting them into more challenging variants while preserving the original answers, and (3) a guaranteed verification stage that ensures near-perfect correctness and difficulty enhancement. Our empirical experiments demonstrate SynthRL's scalability and effectiveness. When applied to the MMK12 dataset, SynthRL synthesizes over 3.3K additional verifiable, challenging questions from approximately 8K seed samples. Models trained with our synthesized data achieve consistent gains across five out-of-domain visual math reasoning benchmarks, with a significant improvement over baseline models trained on seed data alone. Notably, detailed analysis reveals that the gains are more pronounced on the most challenging evaluation samples, highlighting SynthRL's effectiveness in eliciting deeper and more complex reasoning patterns.
PDF512June 4, 2025