ChatPaper.aiChatPaper

OpenRFT: Anpassung des Reasoning Foundation Models für domänenspezifische Aufgaben mit Verfeinerung durch Verstärkungstraining.

OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning

December 22, 2024
Autoren: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang
cs.AI

Zusammenfassung

Die kürzliche Einführung von Reinforcement Fine-Tuning (RFT) durch OpenAI zeigt das Potenzial des Reasoning Foundation Models und bietet ein neues Paradigma für Feinabstimmungen jenseits einfacher Musterimitation. Dieser technische Bericht präsentiert OpenRFT, unseren Versuch, generalistische Reasoning-Modelle für domänenspezifische Aufgaben unter denselben Einstellungen wie RFT feinzutunen. OpenRFT begegnet zwei zentralen Herausforderungen des Mangels an Reasoning-Schrittdaten und der begrenzten Menge an Trainingsdaten, indem es die domänenspezifischen Proben auf drei Arten nutzt: Frageaugmentierung, Synthese von Reasoning-Prozessdaten und Few-Shot ICL. Die Evaluation erfolgt auf SciKnowEval, wo OpenRFT beachtliche Leistungssteigerungen mit nur 100 domänenspezifischen Proben für jede Aufgabe erzielt. Weitere experimentelle Ergebnisse werden kontinuierlich in späteren Versionen aktualisiert. Quellcodes, Datensätze und Modelle sind unter folgendem Link verfügbar: https://github.com/ADaM-BJTU/OpenRFT
English
OpenAI's recent introduction of Reinforcement Fine-Tuning (RFT) showcases the potential of reasoning foundation model and offers a new paradigm for fine-tuning beyond simple pattern imitation. This technical report presents OpenRFT, our attempt to fine-tune generalist reasoning models for domain-specific tasks under the same settings as RFT. OpenRFT addresses two key challenges of lacking reasoning step data and the limited quantity of training samples, by leveraging the domain-specific samples in three ways: question augmentation, synthesizing reasoning-process data, and few-shot ICL. The evaluation is conducted on SciKnowEval, where OpenRFT achieves notable performance gains with only 100 domain-specific samples for each task. More experimental results will be updated continuously in later versions. Source codes, datasets, and models are disclosed at: https://github.com/ADaM-BJTU/OpenRFT

Summary

AI-Generated Summary

PDF92December 24, 2024