Montessori-Instruct: Gerar Dados de Treinamento Influenciadores Adaptados para Aprendizagem do Estudante
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning
October 18, 2024
Autores: Xiaochuan Li, Zichun Yu, Chenyan Xiong
cs.AI
Resumo
Dados sintéticos têm sido amplamente utilizados para treinar grandes modelos de linguagem, mas sua natureza generativa inevitavelmente introduz sinais de aprendizado ruidosos, não informativos e enganosos. Neste artigo, propomos Montessori-Instruct, um novo framework de síntese de dados que adapta a capacidade de síntese de dados do modelo de linguagem professor ao processo de aprendizado do modelo de linguagem aluno. Especificamente, utilizamos a influência local dos dados sintéticos de treinamento nos alunos para caracterizar as preferências de aprendizado dos alunos. Em seguida, treinamos o modelo professor com a Otimização Direta de Preferência (ODP) para gerar dados sintéticos adaptados às preferências de aprendizado dos alunos. Experimentos com Llama3-8B-Instruct (professor) e Llama3-8B (aluno) no Alpaca Eval e MT-Bench demonstram que Montessori-Instruct supera significativamente os métodos de síntese padrão em 18,35% e 46,24%, respectivamente. Nosso método também supera os dados sintetizados por um modelo professor mais robusto, GPT-4o. Análises adicionais confirmam os benefícios do aprendizado do professor para gerar dados de treinamento mais influentes no aprendizado aprimorado do aluno, as vantagens da influência local dos dados na medição precisa das preferências dos alunos e a robustez do Montessori-Instruct em diferentes modelos de alunos. Nosso código e dados estão disponíveis em código aberto em https://github.com/cxcscmu/Montessori-Instruct.
English
Synthetic data has been widely used to train large language models, but their
generative nature inevitably introduces noisy, non-informative, and misleading
learning signals. In this paper, we propose Montessori-Instruct, a novel data
synthesis framework that tailors the data synthesis ability of the teacher
language model toward the student language model's learning process.
Specifically, we utilize local data influence of synthetic training data points
on students to characterize students' learning preferences. Then, we train the
teacher model with Direct Preference Optimization (DPO) to generate synthetic
data tailored toward student learning preferences. Experiments with
Llama3-8B-Instruct (teacher) and Llama3-8B (student) on Alpaca Eval and
MT-Bench demonstrate that Montessori-Instruct significantly outperforms
standard synthesis methods by 18.35\% and 46.24\% relatively. Our method also
beats data synthesized by a stronger teacher model, GPT-4o. Further analysis
confirms the benefits of teacher's learning to generate more influential
training data in the student's improved learning, the advantages of local data
influence in accurately measuring student preferences, and the robustness of
Montessori-Instruct across different student models. Our code and data are
open-sourced at https://github.com/cxcscmu/Montessori-Instruct.Summary
AI-Generated Summary