Montessori-Instruct: Generare Dati di Addestramento Influenti Personalizzati per l'Apprendimento degli Studenti
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning
October 18, 2024
Autori: Xiaochuan Li, Zichun Yu, Chenyan Xiong
cs.AI
Abstract
I dati sintetici sono stati ampiamente utilizzati per addestrare grandi modelli linguistici, ma la loro natura generativa introduce inevitabilmente segnali di apprendimento rumorosi, non informativi e fuorvianti. In questo articolo, proponiamo Montessori-Instruct, un nuovo framework di sintesi dati che adatta la capacità di sintesi dati del modello linguistico insegnante al processo di apprendimento del modello linguistico studente. In particolare, utilizziamo l'influenza locale dei dati di addestramento sintetici sui modelli studente per caratterizzare le preferenze di apprendimento degli studenti. Successivamente, addestriamo il modello insegnante con l'ottimizzazione diretta delle preferenze (DPO) per generare dati sintetici adattati alle preferenze di apprendimento degli studenti. Gli esperimenti con Llama3-8B-Instruct (insegnante) e Llama3-8B (studente) su Alpaca Eval e MT-Bench dimostrano che Montessori-Instruct supera significativamente i metodi di sintesi standard del 18,35% e del 46,24% rispettivamente. Il nostro metodo supera anche i dati sintetizzati da un modello insegnante più potente, GPT-4o. Ulteriori analisi confermano i benefici dell'apprendimento dell'insegnante per generare dati di addestramento più influenti nell'apprendimento migliorato dello studente, i vantaggi dell'influenza locale dei dati nel misurare accuratamente le preferenze degli studenti e la robustezza di Montessori-Instruct su diversi modelli studente. Il nostro codice e i dati sono disponibili su https://github.com/cxcscmu/Montessori-Instruct.
English
Synthetic data has been widely used to train large language models, but their
generative nature inevitably introduces noisy, non-informative, and misleading
learning signals. In this paper, we propose Montessori-Instruct, a novel data
synthesis framework that tailors the data synthesis ability of the teacher
language model toward the student language model's learning process.
Specifically, we utilize local data influence of synthetic training data points
on students to characterize students' learning preferences. Then, we train the
teacher model with Direct Preference Optimization (DPO) to generate synthetic
data tailored toward student learning preferences. Experiments with
Llama3-8B-Instruct (teacher) and Llama3-8B (student) on Alpaca Eval and
MT-Bench demonstrate that Montessori-Instruct significantly outperforms
standard synthesis methods by 18.35\% and 46.24\% relatively. Our method also
beats data synthesized by a stronger teacher model, GPT-4o. Further analysis
confirms the benefits of teacher's learning to generate more influential
training data in the student's improved learning, the advantages of local data
influence in accurately measuring student preferences, and the robustness of
Montessori-Instruct across different student models. Our code and data are
open-sourced at https://github.com/cxcscmu/Montessori-Instruct.Summary
AI-Generated Summary