Alignement des Préférences Enseignant-Élève pour la Génération de Données d'Entraînement Personnalisées

papers.abstract

Les grands modèles de langage (LLM) ont démontré un potentiel significatif en tant que copilotes pour diverses tâches. Le déploiement local de LLM sur des appareils périphériques est nécessaire lors du traitement de données sensibles en termes de confidentialité ou de tâches sensibles à la latence. Les contraintes de calcul de ces appareils rendent le déploiement direct de LLM puissants et à grande échelle peu pratique, nécessitant ainsi la distillation de connaissances des modèles à grande échelle vers des modèles légers. De nombreux travaux ont été réalisés pour obtenir des exemples d'entraînement diversifiés et de qualité à partir des LLM, mais peu d'attention a été accordée à l'alignement du contenu pédagogique de l'enseignant en fonction des préférences de l'élève, similaire à "l'enseignement réactif" en pédagogie. Ainsi, nous proposons ARTE, appelé Aligning TeacheR with StudenT PreferencEs, un cadre qui aligne le modèle enseignant avec les préférences des élèves pour générer des exemples d'entraînement sur mesure pour la distillation de connaissances. Plus précisément, nous obtenons des questions et des raisonnements préliminaires du modèle enseignant, puis collectons les préférences des élèves sur ces questions et raisonnements en utilisant la performance des élèves avec l'apprentissage en contexte comme indicateur, et enfin alignons le modèle enseignant avec les préférences des élèves. Enfin, nous répétons la première étape avec le modèle enseignant aligné pour obtenir des exemples d'entraînement sur mesure pour le modèle élève sur la tâche cible. Des expériences approfondies sur des benchmarks académiques démontrent la supériorité d'ARTE par rapport aux ensembles de données existants pour le réglage d'instructions distillés à partir de LLM puissants. De plus, nous étudions en détail la généralisation d'ARTE, y compris la généralisation des modèles élèves affinés en termes de capacité de raisonnement et la généralisation des modèles enseignants alignés pour générer des données d'entraînement sur mesure à travers les tâches et les élèves. En résumé, nos contributions résident dans la proposition d'un cadre novateur pour la génération d'exemples d'entraînement sur mesure, la démonstration de son efficacité dans les expériences, et l'étude de la généralisation des modèles élèves et des modèles enseignants alignés dans ARTE.

English

Large Language Models (LLMs) have shown significant promise as copilots in various tasks. Local deployment of LLMs on edge devices is necessary when handling privacy-sensitive data or latency-sensitive tasks. The computational constraints of such devices make direct deployment of powerful large-scale LLMs impractical, necessitating the Knowledge Distillation from large-scale models to lightweight models. Lots of work has been done to elicit diversity and quality training examples from LLMs, but little attention has been paid to aligning teacher instructional content based on student preferences, akin to "responsive teaching" in pedagogy. Thus, we propose ARTE, dubbed Aligning TeacheR with StudenT PreferencEs, a framework that aligns the teacher model with student preferences to generate tailored training examples for Knowledge Distillation. Specifically, we elicit draft questions and rationales from the teacher model, then collect student preferences on these questions and rationales using students' performance with in-context learning as a proxy, and finally align the teacher model with student preferences. In the end, we repeat the first step with the aligned teacher model to elicit tailored training examples for the student model on the target task. Extensive experiments on academic benchmarks demonstrate the superiority of ARTE over existing instruction-tuning datasets distilled from powerful LLMs. Moreover, we thoroughly investigate the generalization of ARTE, including the generalization of fine-tuned student models in reasoning ability and the generalization of aligned teacher models to generate tailored training data across tasks and students. In summary, our contributions lie in proposing a novel framework for tailored training example generation, demonstrating its efficacy in experiments, and investigating the generalization of both student & aligned teacher models in ARTE.

Alignement des Préférences Enseignant-Élève pour la Génération de Données d'Entraînement Personnalisées

Aligning Teacher with Student Preferences for Tailored Training Data Generation

papers.abstract

Support