ChatPaper.aiChatPaper

Montessori-Instruct: Generación de Datos de Entrenamiento Influyentes Adaptados para el Aprendizaje del Estudiante

Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

October 18, 2024
Autores: Xiaochuan Li, Zichun Yu, Chenyan Xiong
cs.AI

Resumen

Los datos sintéticos han sido ampliamente utilizados para entrenar grandes modelos de lenguaje, pero su naturaleza generativa introduce inevitablemente señales de aprendizaje ruidosas, no informativas y engañosas. En este documento, proponemos Montessori-Instruct, un nuevo marco de síntesis de datos que adapta la capacidad de síntesis de datos del modelo de lenguaje maestro al proceso de aprendizaje del modelo de lenguaje estudiante. Específicamente, utilizamos la influencia local de los datos sintéticos de entrenamiento en los estudiantes para caracterizar las preferencias de aprendizaje de los estudiantes. Luego, entrenamos el modelo maestro con Optimización de Preferencia Directa (DPO) para generar datos sintéticos adaptados a las preferencias de aprendizaje del estudiante. Experimentos con Llama3-8B-Instruct (maestro) y Llama3-8B (estudiante) en Alpaca Eval y MT-Bench demuestran que Montessori-Instruct supera significativamente a los métodos de síntesis estándar en un 18.35\% y un 46.24% respectivamente. Nuestro método también supera a los datos sintetizados por un modelo maestro más fuerte, GPT-4o. Un análisis adicional confirma los beneficios del aprendizaje del maestro para generar datos de entrenamiento más influyentes en el mejor aprendizaje del estudiante, las ventajas de la influencia local de los datos en la medición precisa de las preferencias del estudiante, y la robustez de Montessori-Instruct en diferentes modelos de estudiantes. Nuestro código y datos están disponibles en https://github.com/cxcscmu/Montessori-Instruct.
English
Synthetic data has been widely used to train large language models, but their generative nature inevitably introduces noisy, non-informative, and misleading learning signals. In this paper, we propose Montessori-Instruct, a novel data synthesis framework that tailors the data synthesis ability of the teacher language model toward the student language model's learning process. Specifically, we utilize local data influence of synthetic training data points on students to characterize students' learning preferences. Then, we train the teacher model with Direct Preference Optimization (DPO) to generate synthetic data tailored toward student learning preferences. Experiments with Llama3-8B-Instruct (teacher) and Llama3-8B (student) on Alpaca Eval and MT-Bench demonstrate that Montessori-Instruct significantly outperforms standard synthesis methods by 18.35\% and 46.24\% relatively. Our method also beats data synthesized by a stronger teacher model, GPT-4o. Further analysis confirms the benefits of teacher's learning to generate more influential training data in the student's improved learning, the advantages of local data influence in accurately measuring student preferences, and the robustness of Montessori-Instruct across different student models. Our code and data are open-sourced at https://github.com/cxcscmu/Montessori-Instruct.
PDF32November 16, 2024