OpenRFT: Het aanpassen van het Redeneerfundamentmodel voor domeinspecifieke taken met Versterkingsfijnafstemming
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning
December 22, 2024
Auteurs: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang
cs.AI
Samenvatting
De recente introductie van Reinforcement Fine-Tuning (RFT) door OpenAI toont het potentieel van redenerende foundation-modellen en biedt een nieuw paradigma voor fine-tuning dat verder gaat dan eenvoudige patroonimitatie. Dit technisch rapport presenteert OpenRFT, onze poging om generalistische redenerende modellen te fine-tunen voor domeinspecifieke taken onder dezelfde instellingen als RFT. OpenRFT pakt twee belangrijke uitdagingen aan, namelijk het ontbreken van redeneerstapgegevens en de beperkte hoeveelheid trainingsvoorbeelden, door gebruik te maken van de domeinspecifieke voorbeelden op drie manieren: vraaguitbreiding, synthetiseren van redeneerprocesgegevens en weinig-opnames ICL. De evaluatie wordt uitgevoerd op SciKnowEval, waar OpenRFT opmerkelijke prestatieverbeteringen behaalt met slechts 100 domeinspecifieke voorbeelden voor elke taak. Meer experimentele resultaten zullen continu worden bijgewerkt in latere versies. Broncodes, datasets en modellen worden bekendgemaakt op: https://github.com/ADaM-BJTU/OpenRFT
English
OpenAI's recent introduction of Reinforcement Fine-Tuning (RFT) showcases the
potential of reasoning foundation model and offers a new paradigm for
fine-tuning beyond simple pattern imitation. This technical report presents
OpenRFT, our attempt to fine-tune generalist reasoning models for
domain-specific tasks under the same settings as RFT. OpenRFT addresses two key
challenges of lacking reasoning step data and the limited quantity of training
samples, by leveraging the domain-specific samples in three ways: question
augmentation, synthesizing reasoning-process data, and few-shot ICL. The
evaluation is conducted on SciKnowEval, where OpenRFT achieves notable
performance gains with only 100 domain-specific samples for each task. More
experimental results will be updated continuously in later versions. Source
codes, datasets, and models are disclosed at:
https://github.com/ADaM-BJTU/OpenRFT