ChatPaper.aiChatPaper

OpenRFT: Het aanpassen van het Redeneerfundamentmodel voor domeinspecifieke taken met Versterkingsfijnafstemming

OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning

December 22, 2024
Auteurs: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang
cs.AI

Samenvatting

De recente introductie van Reinforcement Fine-Tuning (RFT) door OpenAI toont het potentieel van redenerende foundation-modellen en biedt een nieuw paradigma voor fine-tuning dat verder gaat dan eenvoudige patroonimitatie. Dit technisch rapport presenteert OpenRFT, onze poging om generalistische redenerende modellen te fine-tunen voor domeinspecifieke taken onder dezelfde instellingen als RFT. OpenRFT pakt twee belangrijke uitdagingen aan, namelijk het ontbreken van redeneerstapgegevens en de beperkte hoeveelheid trainingsvoorbeelden, door gebruik te maken van de domeinspecifieke voorbeelden op drie manieren: vraaguitbreiding, synthetiseren van redeneerprocesgegevens en weinig-opnames ICL. De evaluatie wordt uitgevoerd op SciKnowEval, waar OpenRFT opmerkelijke prestatieverbeteringen behaalt met slechts 100 domeinspecifieke voorbeelden voor elke taak. Meer experimentele resultaten zullen continu worden bijgewerkt in latere versies. Broncodes, datasets en modellen worden bekendgemaakt op: https://github.com/ADaM-BJTU/OpenRFT
English
OpenAI's recent introduction of Reinforcement Fine-Tuning (RFT) showcases the potential of reasoning foundation model and offers a new paradigm for fine-tuning beyond simple pattern imitation. This technical report presents OpenRFT, our attempt to fine-tune generalist reasoning models for domain-specific tasks under the same settings as RFT. OpenRFT addresses two key challenges of lacking reasoning step data and the limited quantity of training samples, by leveraging the domain-specific samples in three ways: question augmentation, synthesizing reasoning-process data, and few-shot ICL. The evaluation is conducted on SciKnowEval, where OpenRFT achieves notable performance gains with only 100 domain-specific samples for each task. More experimental results will be updated continuously in later versions. Source codes, datasets, and models are disclosed at: https://github.com/ADaM-BJTU/OpenRFT
PDF92February 7, 2026