Alignement des Préférences Enseignant-Élève pour la Génération de Données d'Entraînement Personnalisées
Aligning Teacher with Student Preferences for Tailored Training Data Generation
June 27, 2024
Auteurs: Yantao Liu, Zhao Zhang, Zijun Yao, Shulin Cao, Lei Hou, Juanzi Li
cs.AI
Résumé
Les grands modèles de langage (LLM) ont démontré un potentiel significatif en tant que copilotes pour diverses tâches. Le déploiement local de LLM sur des appareils périphériques est nécessaire lors du traitement de données sensibles en termes de confidentialité ou de tâches sensibles à la latence. Les contraintes de calcul de ces appareils rendent le déploiement direct de LLM puissants et à grande échelle peu pratique, nécessitant ainsi la distillation de connaissances des modèles à grande échelle vers des modèles légers. De nombreux travaux ont été réalisés pour obtenir des exemples d'entraînement diversifiés et de qualité à partir des LLM, mais peu d'attention a été accordée à l'alignement du contenu pédagogique de l'enseignant en fonction des préférences de l'élève, similaire à "l'enseignement réactif" en pédagogie. Ainsi, nous proposons ARTE, appelé Aligning TeacheR with StudenT PreferencEs, un cadre qui aligne le modèle enseignant avec les préférences des élèves pour générer des exemples d'entraînement sur mesure pour la distillation de connaissances. Plus précisément, nous obtenons des questions et des raisonnements préliminaires du modèle enseignant, puis collectons les préférences des élèves sur ces questions et raisonnements en utilisant la performance des élèves avec l'apprentissage en contexte comme indicateur, et enfin alignons le modèle enseignant avec les préférences des élèves. Enfin, nous répétons la première étape avec le modèle enseignant aligné pour obtenir des exemples d'entraînement sur mesure pour le modèle élève sur la tâche cible. Des expériences approfondies sur des benchmarks académiques démontrent la supériorité d'ARTE par rapport aux ensembles de données existants pour le réglage d'instructions distillés à partir de LLM puissants. De plus, nous étudions en détail la généralisation d'ARTE, y compris la généralisation des modèles élèves affinés en termes de capacité de raisonnement et la généralisation des modèles enseignants alignés pour générer des données d'entraînement sur mesure à travers les tâches et les élèves. En résumé, nos contributions résident dans la proposition d'un cadre novateur pour la génération d'exemples d'entraînement sur mesure, la démonstration de son efficacité dans les expériences, et l'étude de la généralisation des modèles élèves et des modèles enseignants alignés dans ARTE.
English
Large Language Models (LLMs) have shown significant promise as copilots in
various tasks. Local deployment of LLMs on edge devices is necessary when
handling privacy-sensitive data or latency-sensitive tasks. The computational
constraints of such devices make direct deployment of powerful large-scale LLMs
impractical, necessitating the Knowledge Distillation from large-scale models
to lightweight models. Lots of work has been done to elicit diversity and
quality training examples from LLMs, but little attention has been paid to
aligning teacher instructional content based on student preferences, akin to
"responsive teaching" in pedagogy. Thus, we propose ARTE, dubbed Aligning
TeacheR with StudenT PreferencEs, a framework that aligns the teacher model
with student preferences to generate tailored training examples for Knowledge
Distillation. Specifically, we elicit draft questions and rationales from the
teacher model, then collect student preferences on these questions and
rationales using students' performance with in-context learning as a proxy, and
finally align the teacher model with student preferences. In the end, we repeat
the first step with the aligned teacher model to elicit tailored training
examples for the student model on the target task. Extensive experiments on
academic benchmarks demonstrate the superiority of ARTE over existing
instruction-tuning datasets distilled from powerful LLMs. Moreover, we
thoroughly investigate the generalization of ARTE, including the generalization
of fine-tuned student models in reasoning ability and the generalization of
aligned teacher models to generate tailored training data across tasks and
students. In summary, our contributions lie in proposing a novel framework for
tailored training example generation, demonstrating its efficacy in
experiments, and investigating the generalization of both student & aligned
teacher models in ARTE.Summary
AI-Generated Summary