ChatPaper.aiChatPaper

SynthRL: 검증 가능한 데이터 합성을 통한 시각적 추론의 확장

SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

June 2, 2025
저자: Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh
cs.AI

초록

검증 가능한 보상(RLVR)을 통한 강화 학습으로 훈련된 시각-언어 모델(VLMs)은 테스트 시점 계산을 효과적으로 확장하는 데 있어서 주목할 만한 진전을 보여주었다. 본 연구에서는 합성된 RL 데이터가 RLVR을 어떻게 더욱 개선할 수 있는지 조사한다. 이를 위해, 우리는 추론 지향적 RL 훈련에서 자동 데이터 확장을 위한 확장 가능하고 보장된 파이프라인인 SynthRL을 제안한다. SynthRL은 세 가지 주요 단계로 구성된다: (1) 적절한 분포를 가진 시드 질문을 선택하고, (2) 원래 답변을 보존하면서 더 도전적인 변형으로 확장하며, (3) 거의 완벽한 정확성과 난이도 향상을 보장하는 검증 단계. 우리의 실험 결과는 SynthRL의 확장성과 효과성을 입증한다. MMK12 데이터셋에 적용했을 때, SynthRL은 약 8,000개의 시드 샘플로부터 3,300개 이상의 검증 가능하고 도전적인 추가 질문을 합성한다. 우리가 합성한 데이터로 훈련된 모델은 시드 데이터만으로 훈련된 기준 모델에 비해 다섯 가지 도메인 외 시각 수학 추론 벤치마크에서 일관된 성능 향상을 보이며, 특히 가장 도전적인 평가 샘플에서 더 두드러진 개선을 보인다. 이는 SynthRL이 더 깊고 복잡한 추론 패턴을 이끌어내는 데 효과적임을 강조한다.
English
Vision-language models (VLMs) trained via reinforcement learning with verifiable reward (RLVR) have shown notable progress in scaling test-time compute effectively. In this work, we investigate how synthesized RL data can further improve RLVR. To this end, we propose SynthRL-a scalable and guaranteed pipeline for automatic data scaling in reasoning-oriented RL training. SynthRL comprises three key stages: (1) selecting seed questions with appropriate distribution, (2) augmenting them into more challenging variants while preserving the original answers, and (3) a guaranteed verification stage that ensures near-perfect correctness and difficulty enhancement. Our empirical experiments demonstrate SynthRL's scalability and effectiveness. When applied to the MMK12 dataset, SynthRL synthesizes over 3.3K additional verifiable, challenging questions from approximately 8K seed samples. Models trained with our synthesized data achieve consistent gains across five out-of-domain visual math reasoning benchmarks, with a significant improvement over baseline models trained on seed data alone. Notably, detailed analysis reveals that the gains are more pronounced on the most challenging evaluation samples, highlighting SynthRL's effectiveness in eliciting deeper and more complex reasoning patterns.
PDF522June 4, 2025