ChatPaper.aiChatPaper

Montessori-Instruct: Генерация влиятельных обучающих данных, адаптированных для обучения студентов.

Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

October 18, 2024
Авторы: Xiaochuan Li, Zichun Yu, Chenyan Xiong
cs.AI

Аннотация

Синтетические данные широко используются для обучения больших языковых моделей, однако их генеративная природа неизбежно вносит шум, неинформативные и вводящие в заблуждение сигналы обучения. В данной статье мы предлагаем Montessori-Instruct, новую структуру синтеза данных, которая настраивает способность синтеза данных учительской языковой модели на процесс обучения студенческой языковой модели. Конкретно, мы используем локальное влияние данных синтетического обучающего набора на студентов для характеристики предпочтений обучения студентов. Затем мы обучаем учительскую модель с прямой оптимизацией предпочтений (DPO) для генерации синтетических данных, настроенных на предпочтения обучения студентов. Эксперименты с Llama3-8B-Instruct (учитель) и Llama3-8B (студент) на Alpaca Eval и MT-Bench показывают, что Montessori-Instruct значительно превосходит стандартные методы синтеза на 18,35\% и 46,24\% соответственно. Наш метод также превосходит данные, синтезированные более мощной учительской моделью, GPT-4o. Дополнительный анализ подтверждает преимущества обучения учителя в генерации более влиятельных обучающих данных для улучшения обучения студентов, преимущества локального влияния данных в точном измерении предпочтений студентов и устойчивость Montessori-Instruct для различных моделей студентов. Наш код и данные доступны на https://github.com/cxcscmu/Montessori-Instruct.
English
Synthetic data has been widely used to train large language models, but their generative nature inevitably introduces noisy, non-informative, and misleading learning signals. In this paper, we propose Montessori-Instruct, a novel data synthesis framework that tailors the data synthesis ability of the teacher language model toward the student language model's learning process. Specifically, we utilize local data influence of synthetic training data points on students to characterize students' learning preferences. Then, we train the teacher model with Direct Preference Optimization (DPO) to generate synthetic data tailored toward student learning preferences. Experiments with Llama3-8B-Instruct (teacher) and Llama3-8B (student) on Alpaca Eval and MT-Bench demonstrate that Montessori-Instruct significantly outperforms standard synthesis methods by 18.35\% and 46.24\% relatively. Our method also beats data synthesized by a stronger teacher model, GPT-4o. Further analysis confirms the benefits of teacher's learning to generate more influential training data in the student's improved learning, the advantages of local data influence in accurately measuring student preferences, and the robustness of Montessori-Instruct across different student models. Our code and data are open-sourced at https://github.com/cxcscmu/Montessori-Instruct.
PDF32November 16, 2024