OpenRFT: Adaptación del Modelo de Fundamentos de Razonamiento para Tareas Específicas del Dominio con Ajuste Fino por Reforzamiento
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning
December 22, 2024
Autores: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang
cs.AI
Resumen
La reciente introducción de OpenAI de Ajuste Fino por Reforzamiento (RFT) muestra el potencial del modelo de fundamentos de razonamiento y ofrece un nuevo paradigma para el ajuste fino más allá de la simple imitación de patrones. Este informe técnico presenta OpenRFT, nuestro intento de ajustar modelos de razonamiento generalistas para tareas específicas de dominio bajo la misma configuración que RFT. OpenRFT aborda dos desafíos clave de la falta de datos de pasos de razonamiento y la cantidad limitada de muestras de entrenamiento, aprovechando las muestras específicas del dominio de tres maneras: aumentando preguntas, sintetizando datos de procesos de razonamiento y ICL de pocas muestras. La evaluación se lleva a cabo en SciKnowEval, donde OpenRFT logra mejoras de rendimiento notables con solo 100 muestras específicas del dominio para cada tarea. Se actualizarán más resultados experimentales continuamente en versiones posteriores. Los códigos fuente, conjuntos de datos y modelos se divulgan en: https://github.com/ADaM-BJTU/OpenRFT
English
OpenAI's recent introduction of Reinforcement Fine-Tuning (RFT) showcases the
potential of reasoning foundation model and offers a new paradigm for
fine-tuning beyond simple pattern imitation. This technical report presents
OpenRFT, our attempt to fine-tune generalist reasoning models for
domain-specific tasks under the same settings as RFT. OpenRFT addresses two key
challenges of lacking reasoning step data and the limited quantity of training
samples, by leveraging the domain-specific samples in three ways: question
augmentation, synthesizing reasoning-process data, and few-shot ICL. The
evaluation is conducted on SciKnowEval, where OpenRFT achieves notable
performance gains with only 100 domain-specific samples for each task. More
experimental results will be updated continuously in later versions. Source
codes, datasets, and models are disclosed at:
https://github.com/ADaM-BJTU/OpenRFTSummary
AI-Generated Summary