ChatPaper.aiChatPaper

Montessori-Instruct: Generare Dati di Addestramento Influenti Personalizzati per l'Apprendimento degli Studenti

Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

October 18, 2024
Autori: Xiaochuan Li, Zichun Yu, Chenyan Xiong
cs.AI

Abstract

I dati sintetici sono stati ampiamente utilizzati per addestrare grandi modelli linguistici, ma la loro natura generativa introduce inevitabilmente segnali di apprendimento rumorosi, non informativi e fuorvianti. In questo articolo, proponiamo Montessori-Instruct, un nuovo framework di sintesi dati che adatta la capacità di sintesi dati del modello linguistico insegnante al processo di apprendimento del modello linguistico studente. In particolare, utilizziamo l'influenza locale dei dati di addestramento sintetici sui modelli studente per caratterizzare le preferenze di apprendimento degli studenti. Successivamente, addestriamo il modello insegnante con l'ottimizzazione diretta delle preferenze (DPO) per generare dati sintetici adattati alle preferenze di apprendimento degli studenti. Gli esperimenti con Llama3-8B-Instruct (insegnante) e Llama3-8B (studente) su Alpaca Eval e MT-Bench dimostrano che Montessori-Instruct supera significativamente i metodi di sintesi standard del 18,35% e del 46,24% rispettivamente. Il nostro metodo supera anche i dati sintetizzati da un modello insegnante più potente, GPT-4o. Ulteriori analisi confermano i benefici dell'apprendimento dell'insegnante per generare dati di addestramento più influenti nell'apprendimento migliorato dello studente, i vantaggi dell'influenza locale dei dati nel misurare accuratamente le preferenze degli studenti e la robustezza di Montessori-Instruct su diversi modelli studente. Il nostro codice e i dati sono disponibili su https://github.com/cxcscmu/Montessori-Instruct.
English
Synthetic data has been widely used to train large language models, but their generative nature inevitably introduces noisy, non-informative, and misleading learning signals. In this paper, we propose Montessori-Instruct, a novel data synthesis framework that tailors the data synthesis ability of the teacher language model toward the student language model's learning process. Specifically, we utilize local data influence of synthetic training data points on students to characterize students' learning preferences. Then, we train the teacher model with Direct Preference Optimization (DPO) to generate synthetic data tailored toward student learning preferences. Experiments with Llama3-8B-Instruct (teacher) and Llama3-8B (student) on Alpaca Eval and MT-Bench demonstrate that Montessori-Instruct significantly outperforms standard synthesis methods by 18.35\% and 46.24\% relatively. Our method also beats data synthesized by a stronger teacher model, GPT-4o. Further analysis confirms the benefits of teacher's learning to generate more influential training data in the student's improved learning, the advantages of local data influence in accurately measuring student preferences, and the robustness of Montessori-Instruct across different student models. Our code and data are open-sourced at https://github.com/cxcscmu/Montessori-Instruct.

Summary

AI-Generated Summary

PDF32November 16, 2024