OpenRFT : Adaptation du Modèle de Fondation de Raisonnement pour les Tâches Spécifiques au Domaine avec un Ajustement Fin par Renforcement
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning
December 22, 2024
Auteurs: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang
cs.AI
Résumé
La récente introduction par OpenAI du Fine-Tuning par Renforcement (RFT) met en avant le potentiel du modèle de fondation de raisonnement et propose un nouveau paradigme pour le fine-tuning au-delà de la simple imitation de motifs. Ce rapport technique présente OpenRFT, notre tentative de fine-tuning de modèles de raisonnement généralistes pour des tâches spécifiques au domaine dans les mêmes paramètres que le RFT. OpenRFT aborde deux défis majeurs liés au manque de données d'étapes de raisonnement et à la quantité limitée d'échantillons d'entraînement, en exploitant les échantillons spécifiques au domaine de trois manières : augmentation des questions, synthèse de données de processus de raisonnement et ICL à quelques coups. L'évaluation est réalisée sur SciKnowEval, où OpenRFT obtient des gains de performance notables avec seulement 100 échantillons spécifiques au domaine pour chaque tâche. Davantage de résultats expérimentaux seront mis à jour continuellement dans les versions ultérieures. Les codes sources, ensembles de données et modèles sont disponibles sur : https://github.com/ADaM-BJTU/OpenRFT
English
OpenAI's recent introduction of Reinforcement Fine-Tuning (RFT) showcases the
potential of reasoning foundation model and offers a new paradigm for
fine-tuning beyond simple pattern imitation. This technical report presents
OpenRFT, our attempt to fine-tune generalist reasoning models for
domain-specific tasks under the same settings as RFT. OpenRFT addresses two key
challenges of lacking reasoning step data and the limited quantity of training
samples, by leveraging the domain-specific samples in three ways: question
augmentation, synthesizing reasoning-process data, and few-shot ICL. The
evaluation is conducted on SciKnowEval, where OpenRFT achieves notable
performance gains with only 100 domain-specific samples for each task. More
experimental results will be updated continuously in later versions. Source
codes, datasets, and models are disclosed at:
https://github.com/ADaM-BJTU/OpenRFTSummary
AI-Generated Summary