ChatPaper.aiChatPaper

합성 데이터 강화 학습: 과제 정의만으로 충분하다

Synthetic Data RL: Task Definition Is All You Need

May 18, 2025
저자: Yiduo Guo, Zhen Guo, Chuanwei Huang, Zi-Ang Wang, Zekai Zhang, Haofei Yu, Huishuai Zhang, Yikang Shen
cs.AI

초록

강화 학습(Reinforcement Learning, RL)은 기초 모델을 특화된 작업에 적응시키는 강력한 방법이지만, 대규모 인간 주석 데이터에 대한 의존성으로 인해 광범위한 채택이 제한됩니다. 우리는 '합성 데이터 강화 학습(Synthetic Data RL)'이라는 간단하면서도 일반적인 프레임워크를 소개합니다. 이 방법은 작업 정의에서 생성된 합성 데이터만을 사용하여 모델을 강화 학습으로 미세 조정합니다. 우리의 방법은 먼저 작업 정의와 검색된 문서에서 질문과 답변 쌍을 생성한 후, 모델의 해결 가능성을 기반으로 질문의 난이도를 조정하고, 샘플 간 모델의 평균 통과율을 사용하여 강화 학습 훈련을 위한 질문을 선택합니다. Qwen-2.5-7B 모델에서 우리의 방법은 GSM8K에서 기본 모델 대비 29.2%의 절대적 개선을 달성했으며(+2.9pp vs. 지시 미세 조정, +6.6pp vs. Self-Instruct), MATH에서는 8.7%, GPQA에서는 13.1%(+7.0pp vs. SynthLLM), MedQA에서는 8.9%, CQA(법률)에서는 17.7%, CFA(금융)에서는 13.7%의 성능 향상을 보였습니다. 이는 동일한 데이터 예산 하에서 지도 학습 미세 조정을 능가하며, 전체 인간 데이터를 사용한 강화 학습과 거의 비슷한 성능을 보입니다(예: GSM8K에서 +17.2pp). 100개의 인간 시연 데이터를 추가해도 GSM8K 성능은 단 0.4pp만 향상되어 추가적인 가치가 제한적임을 보여줍니다. 인간 데이터 주석을 줄임으로써, 합성 데이터 강화 학습은 확장 가능하고 효율적인 강화 학습 기반 모델 적응을 가능하게 합니다. 코드와 데모는 https://github.com/gydpku/Data_Synthesis_RL/에서 확인할 수 있습니다.
English
Reinforcement learning (RL) is a powerful way to adapt foundation models to specialized tasks, but its reliance on large-scale human-labeled data limits broad adoption. We introduce Synthetic Data RL, a simple and general framework that reinforcement fine-tunes models using only synthetic data generated from a task definition. Our method first generates question and answer pairs from the task definition and retrieved documents, then adapts the difficulty of the question based on model solvability, and selects questions using the average pass rate of the model across samples for RL training. On Qwen-2.5-7B, our method achieves a 29.2% absolute improvement over the base model on GSM8K (+2.9 pp vs. instruction-tuned, +6.6 pp vs. Self-Instruct), 8.7% on MATH, 13.1% on GPQA (+7.0 pp vs. SynthLLM), 8.9% on MedQA, 17.7% on CQA (law) and 13.7% on CFA (finance). It surpasses supervised fine-tuning under the same data budget and nearly matches RL with full human data across datasets (e.g., +17.2 pp on GSM8K). Adding 100 human demonstrations improves the performance of GSM8K only by 0.4 pp, showing a limited added value. By reducing human data annotation, Synthetic Data RL enables scalable and efficient RL-based model adaptation. Code and demos are available at https://github.com/gydpku/Data_Synthesis_RL/.

Summary

AI-Generated Summary

PDF82May 26, 2025