Afstemmen van de Leraar op de Voorkeuren van de Student voor het Genereren van Op Maat Gemaakte Trainingsdata
Aligning Teacher with Student Preferences for Tailored Training Data Generation
June 27, 2024
Auteurs: Yantao Liu, Zhao Zhang, Zijun Yao, Shulin Cao, Lei Hou, Juanzi Li
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) hebben aanzienlijke belofte getoond als copiloten bij verschillende taken. Lokale implementatie van LLM's op edge-apparaten is noodzakelijk bij het verwerken van privacygevoelige gegevens of latentiegevoelige taken. De rekenkundige beperkingen van dergelijke apparaten maken directe implementatie van krachtige grootschalige LLM's onpraktisch, wat kennisdistillatie van grootschalige modellen naar lichtgewicht modellen vereist. Er is veel werk verricht om diversiteit en kwalitatief hoogstaande trainingsvoorbeelden uit LLM's te verkrijgen, maar er is weinig aandacht besteed aan het afstemmen van de instructie-inhoud van de leraar op basis van de voorkeuren van de student, vergelijkbaar met "responsief onderwijs" in de pedagogiek. Daarom stellen we ARTE voor, genaamd Aligning TeacheR with StudenT PreferencEs, een raamwerk dat het leraarmodel afstemt op de voorkeuren van de student om op maat gemaakte trainingsvoorbeelden voor kennisdistillatie te genereren. Specifiek verkrijgen we conceptvragen en redeneringen van het leraarmodel, verzamelen we vervolgens de voorkeuren van de studenten over deze vragen en redeneringen door de prestaties van studenten met in-context leren als proxy te gebruiken, en stemmen we ten slotte het leraarmodel af op de voorkeuren van de studenten. Uiteindelijk herhalen we de eerste stap met het afgestemde leraarmodel om op maat gemaakte trainingsvoorbeelden voor het studentmodel voor de doeltaak te verkrijgen. Uitgebreide experimenten op academische benchmarks tonen de superioriteit van ARTE aan ten opzichte van bestaande instructie-afstemmingsdatasets die zijn gedistilleerd uit krachtige LLM's. Bovendien onderzoeken we grondig de generalisatie van ARTE, inclusief de generalisatie van fijn afgestemde studentmodellen in redeneervermogen en de generalisatie van afgestemde leraarmodellen om op maat gemaakte trainingsgegevens te genereren voor verschillende taken en studenten. Samenvatting ligt onze bijdrage in het voorstellen van een nieuw raamwerk voor het genereren van op maat gemaakte trainingsvoorbeelden, het aantonen van de effectiviteit ervan in experimenten, en het onderzoeken van de generalisatie van zowel student- als afgestemde leraarmodellen in ARTE.
English
Large Language Models (LLMs) have shown significant promise as copilots in
various tasks. Local deployment of LLMs on edge devices is necessary when
handling privacy-sensitive data or latency-sensitive tasks. The computational
constraints of such devices make direct deployment of powerful large-scale LLMs
impractical, necessitating the Knowledge Distillation from large-scale models
to lightweight models. Lots of work has been done to elicit diversity and
quality training examples from LLMs, but little attention has been paid to
aligning teacher instructional content based on student preferences, akin to
"responsive teaching" in pedagogy. Thus, we propose ARTE, dubbed Aligning
TeacheR with StudenT PreferencEs, a framework that aligns the teacher model
with student preferences to generate tailored training examples for Knowledge
Distillation. Specifically, we elicit draft questions and rationales from the
teacher model, then collect student preferences on these questions and
rationales using students' performance with in-context learning as a proxy, and
finally align the teacher model with student preferences. In the end, we repeat
the first step with the aligned teacher model to elicit tailored training
examples for the student model on the target task. Extensive experiments on
academic benchmarks demonstrate the superiority of ARTE over existing
instruction-tuning datasets distilled from powerful LLMs. Moreover, we
thoroughly investigate the generalization of ARTE, including the generalization
of fine-tuned student models in reasoning ability and the generalization of
aligned teacher models to generate tailored training data across tasks and
students. In summary, our contributions lie in proposing a novel framework for
tailored training example generation, demonstrating its efficacy in
experiments, and investigating the generalization of both student & aligned
teacher models in ARTE.