OpenRFT: Anpassung des Reasoning Foundation Models für domänenspezifische Aufgaben mit Verfeinerung durch Verstärkungstraining.
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning
December 22, 2024
Autoren: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang
cs.AI
Zusammenfassung
Die kürzliche Einführung von Reinforcement Fine-Tuning (RFT) durch OpenAI zeigt das Potenzial des Reasoning Foundation Models und bietet ein neues Paradigma für Feinabstimmungen jenseits einfacher Musterimitation. Dieser technische Bericht präsentiert OpenRFT, unseren Versuch, generalistische Reasoning-Modelle für domänenspezifische Aufgaben unter denselben Einstellungen wie RFT feinzutunen. OpenRFT begegnet zwei zentralen Herausforderungen des Mangels an Reasoning-Schrittdaten und der begrenzten Menge an Trainingsdaten, indem es die domänenspezifischen Proben auf drei Arten nutzt: Frageaugmentierung, Synthese von Reasoning-Prozessdaten und Few-Shot ICL. Die Evaluation erfolgt auf SciKnowEval, wo OpenRFT beachtliche Leistungssteigerungen mit nur 100 domänenspezifischen Proben für jede Aufgabe erzielt. Weitere experimentelle Ergebnisse werden kontinuierlich in späteren Versionen aktualisiert. Quellcodes, Datensätze und Modelle sind unter folgendem Link verfügbar: https://github.com/ADaM-BJTU/OpenRFT
English
OpenAI's recent introduction of Reinforcement Fine-Tuning (RFT) showcases the
potential of reasoning foundation model and offers a new paradigm for
fine-tuning beyond simple pattern imitation. This technical report presents
OpenRFT, our attempt to fine-tune generalist reasoning models for
domain-specific tasks under the same settings as RFT. OpenRFT addresses two key
challenges of lacking reasoning step data and the limited quantity of training
samples, by leveraging the domain-specific samples in three ways: question
augmentation, synthesizing reasoning-process data, and few-shot ICL. The
evaluation is conducted on SciKnowEval, where OpenRFT achieves notable
performance gains with only 100 domain-specific samples for each task. More
experimental results will be updated continuously in later versions. Source
codes, datasets, and models are disclosed at:
https://github.com/ADaM-BJTU/OpenRFTSummary
AI-Generated Summary