OpenRFT: Адаптация модели основы рассуждений для задач, специфичных для области, с использованием усиления Fein-Tuning.
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning
December 22, 2024
Авторы: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang
cs.AI
Аннотация
Недавнее введение OpenAI метода Тонкой Настройки с Подкреплением (RFT) демонстрирует потенциал модели основы рассуждений и предлагает новую парадигму для настройки сверх простого имитирования шаблонов. В данном техническом отчете представлен OpenRFT, наша попытка настроить общие модели рассуждений для задач, специфичных для области, в тех же условиях, что и RFT. OpenRFT решает две ключевые проблемы отсутствия данных о шагах рассуждений и ограниченного количества обучающих примеров, используя областные примеры тремя способами: увеличение вопросов, синтез данных процесса рассуждений и обучение на небольшом количестве примеров. Оценка проводится на SciKnowEval, где OpenRFT достигает значительного улучшения производительности всего с 100 областными примерами для каждой задачи. Дополнительные результаты экспериментов будут регулярно обновляться в последующих версиях. Исходные коды, наборы данных и модели доступны по ссылке: https://github.com/ADaM-BJTU/OpenRFT
English
OpenAI's recent introduction of Reinforcement Fine-Tuning (RFT) showcases the
potential of reasoning foundation model and offers a new paradigm for
fine-tuning beyond simple pattern imitation. This technical report presents
OpenRFT, our attempt to fine-tune generalist reasoning models for
domain-specific tasks under the same settings as RFT. OpenRFT addresses two key
challenges of lacking reasoning step data and the limited quantity of training
samples, by leveraging the domain-specific samples in three ways: question
augmentation, synthesizing reasoning-process data, and few-shot ICL. The
evaluation is conducted on SciKnowEval, where OpenRFT achieves notable
performance gains with only 100 domain-specific samples for each task. More
experimental results will be updated continuously in later versions. Source
codes, datasets, and models are disclosed at:
https://github.com/ADaM-BJTU/OpenRFTSummary
AI-Generated Summary