ChatPaper.aiChatPaper

Abstimmung von Lehrer mit den Präferenzen der Schüler für maßgeschneiderte Trainingsdatenerzeugung

Aligning Teacher with Student Preferences for Tailored Training Data Generation

June 27, 2024
Autoren: Yantao Liu, Zhao Zhang, Zijun Yao, Shulin Cao, Lei Hou, Juanzi Li
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben sich als vielversprechende Co-Piloten in verschiedenen Aufgaben erwiesen. Die lokale Bereitstellung von LLMs auf Edge-Geräten ist erforderlich, wenn datenschutzsensible Daten oder latenzempfindliche Aufgaben behandelt werden. Die Rechenbeschränkungen solcher Geräte machen die direkte Bereitstellung leistungsstarker groß angelegter LLMs unpraktisch, was die Wissensdestillation von groß angelegten Modellen zu leichtgewichtigen Modellen erforderlich macht. Es wurde viel Arbeit geleistet, um Vielfalt und Qualität von Trainingsbeispielen von LLMs zu erlangen, aber wenig Aufmerksamkeit wurde darauf gerichtet, den Lehrinhalt des Lehrers basierend auf den Vorlieben der Schüler auszurichten, ähnlich dem "responsiven Unterricht" in der Pädagogik. Daher schlagen wir ARTE vor, genannt Aligning TeacheR with StudenT PreferencEs, ein Rahmenwerk, das das Lehrermodell mit den Vorlieben der Schüler abstimmt, um maßgeschneiderte Trainingsbeispiele für die Wissensdestillation zu generieren. Konkret ermitteln wir Entwurfsfragen und Begründungen aus dem Lehrermodell, sammeln dann die Vorlieben der Schüler zu diesen Fragen und Begründungen anhand der Leistung der Schüler beim kontextbezogenen Lernen als Proxy und stimmen schließlich das Lehrermodell mit den Schülervorlieben ab. Am Ende wiederholen wir den ersten Schritt mit dem abgestimmten Lehrermodell, um maßgeschneiderte Trainingsbeispiele für das Schülermodell in der Ziel-Aufgabe zu ermitteln. Umfangreiche Experimente an akademischen Benchmarks zeigen die Überlegenheit von ARTE gegenüber bestehenden Instruktionsabstimmungsdatensätzen, die aus leistungsstarken LLMs destilliert wurden. Darüber hinaus untersuchen wir gründlich die Verallgemeinerung von ARTE, einschließlich der Verallgemeinerung von feinabgestimmten Schülermodellen in der Denkfähigkeit und der Verallgemeinerung von abgestimmten Lehrermodellen zur Generierung maßgeschneiderter Trainingsdaten über Aufgaben und Schüler hinweg. Zusammenfassend liegen unsere Beiträge darin, ein neuartiges Rahmenwerk für die Generierung maßgeschneiderter Trainingsbeispiele vorzuschlagen, dessen Wirksamkeit in Experimenten zu demonstrieren und die Verallgemeinerung sowohl der Schüler- als auch der abgestimmten Lehrermodelle in ARTE zu untersuchen.
English
Large Language Models (LLMs) have shown significant promise as copilots in various tasks. Local deployment of LLMs on edge devices is necessary when handling privacy-sensitive data or latency-sensitive tasks. The computational constraints of such devices make direct deployment of powerful large-scale LLMs impractical, necessitating the Knowledge Distillation from large-scale models to lightweight models. Lots of work has been done to elicit diversity and quality training examples from LLMs, but little attention has been paid to aligning teacher instructional content based on student preferences, akin to "responsive teaching" in pedagogy. Thus, we propose ARTE, dubbed Aligning TeacheR with StudenT PreferencEs, a framework that aligns the teacher model with student preferences to generate tailored training examples for Knowledge Distillation. Specifically, we elicit draft questions and rationales from the teacher model, then collect student preferences on these questions and rationales using students' performance with in-context learning as a proxy, and finally align the teacher model with student preferences. In the end, we repeat the first step with the aligned teacher model to elicit tailored training examples for the student model on the target task. Extensive experiments on academic benchmarks demonstrate the superiority of ARTE over existing instruction-tuning datasets distilled from powerful LLMs. Moreover, we thoroughly investigate the generalization of ARTE, including the generalization of fine-tuned student models in reasoning ability and the generalization of aligned teacher models to generate tailored training data across tasks and students. In summary, our contributions lie in proposing a novel framework for tailored training example generation, demonstrating its efficacy in experiments, and investigating the generalization of both student & aligned teacher models in ARTE.

Summary

AI-Generated Summary

PDF262November 29, 2024