ChatPaper.aiChatPaper

Synthetische Data RL: Taakdefinitie Is Alles Wat Je Nodig Hebt

Synthetic Data RL: Task Definition Is All You Need

May 18, 2025
Auteurs: Yiduo Guo, Zhen Guo, Chuanwei Huang, Zi-Ang Wang, Zekai Zhang, Haofei Yu, Huishuai Zhang, Yikang Shen
cs.AI

Samenvatting

Reinforcement learning (RL) is een krachtige methode om foundation models aan te passen voor gespecialiseerde taken, maar de afhankelijkheid van grootschalige, door mensen gelabelde data beperkt de brede adoptie. Wij introduceren Synthetic Data RL, een eenvoudig en algemeen framework dat modellen reinforcement fine-tuned met uitsluitend synthetische data gegenereerd vanuit een taakdefinitie. Onze methode genereert eerst vraag- en antwoordparen vanuit de taakdefinitie en opgehaalde documenten, past vervolgens de moeilijkheidsgraad van de vraag aan op basis van de oplosbaarheid door het model, en selecteert vragen met behulp van het gemiddelde slagingspercentage van het model over verschillende steekproeven voor RL-training. Op Qwen-2.5-7B behaalt onze methode een absolute verbetering van 29,2% ten opzichte van het basismodel op GSM8K (+2,9 pp vs. instruction-tuned, +6,6 pp vs. Self-Instruct), 8,7% op MATH, 13,1% op GPQA (+7,0 pp vs. SynthLLM), 8,9% op MedQA, 17,7% op CQA (recht) en 13,7% op CFA (financiën). Het overtreft supervised fine-tuning binnen hetzelfde databudget en benadert RL met volledige menselijke data over verschillende datasets (bijv., +17,2 pp op GSM8K). Het toevoegen van 100 menselijke demonstraties verbetert de prestaties op GSM8K slechts met 0,4 pp, wat een beperkte meerwaarde aantoont. Door de annotatie van menselijke data te verminderen, maakt Synthetic Data RL schaalbare en efficiënte RL-gebaseerde modelaanpassing mogelijk. Code en demo's zijn beschikbaar op https://github.com/gydpku/Data_Synthesis_RL/.
English
Reinforcement learning (RL) is a powerful way to adapt foundation models to specialized tasks, but its reliance on large-scale human-labeled data limits broad adoption. We introduce Synthetic Data RL, a simple and general framework that reinforcement fine-tunes models using only synthetic data generated from a task definition. Our method first generates question and answer pairs from the task definition and retrieved documents, then adapts the difficulty of the question based on model solvability, and selects questions using the average pass rate of the model across samples for RL training. On Qwen-2.5-7B, our method achieves a 29.2% absolute improvement over the base model on GSM8K (+2.9 pp vs. instruction-tuned, +6.6 pp vs. Self-Instruct), 8.7% on MATH, 13.1% on GPQA (+7.0 pp vs. SynthLLM), 8.9% on MedQA, 17.7% on CQA (law) and 13.7% on CFA (finance). It surpasses supervised fine-tuning under the same data budget and nearly matches RL with full human data across datasets (e.g., +17.2 pp on GSM8K). Adding 100 human demonstrations improves the performance of GSM8K only by 0.4 pp, showing a limited added value. By reducing human data annotation, Synthetic Data RL enables scalable and efficient RL-based model adaptation. Code and demos are available at https://github.com/gydpku/Data_Synthesis_RL/.
PDF102May 26, 2025