Allineamento delle Preferenze del Docente con quelle dello Studente per la Generazione di Dati di Addestramento Personalizzati

Abstract

I Large Language Model (LLM) hanno dimostrato un potenziale significativo come copiloti in vari compiti. Il deployment locale di LLM su dispositivi edge è necessario quando si gestiscono dati sensibili alla privacy o compiti sensibili alla latenza. I vincoli computazionali di tali dispositivi rendono impraticabile il deployment diretto di LLM potenti su larga scala, rendendo necessaria la Distillazione della Conoscenza da modelli di grandi dimensioni a modelli leggeri. Molto lavoro è stato fatto per ottenere esempi di addestramento diversificati e di alta qualità dai LLM, ma poca attenzione è stata dedicata all'allineamento dei contenuti didattici del docente in base alle preferenze dello studente, simile all'"insegnamento reattivo" in pedagogia. Pertanto, proponiamo ARTE, denominato Aligning TeacheR with StudenT PreferencEs, un framework che allinea il modello docente con le preferenze dello studente per generare esempi di addestramento personalizzati per la Distillazione della Conoscenza. Nello specifico, otteniamo bozze di domande e ragionamenti dal modello docente, raccogliamo le preferenze degli studenti su queste domande e ragionamenti utilizzando le prestazioni degli studenti con l'apprendimento in contesto come proxy, e infine allineiamo il modello docente con le preferenze degli studenti. Alla fine, ripetiamo il primo passo con il modello docente allineato per ottenere esempi di addestramento personalizzati per il modello studente sul compito target. Esperimenti estesi su benchmark accademici dimostrano la superiorità di ARTE rispetto ai dataset esistenti di instruction-tuning distillati da LLM potenti. Inoltre, investigiamo approfonditamente la generalizzazione di ARTE, inclusa la generalizzazione dei modelli studente fine-tuned nelle capacità di ragionamento e la generalizzazione dei modelli docenti allineati per generare dati di addestramento personalizzati tra compiti e studenti. In sintesi, i nostri contributi consistono nel proporre un nuovo framework per la generazione di esempi di addestramento personalizzati, dimostrarne l'efficacia negli esperimenti e investigare la generalizzazione sia dei modelli studente che dei modelli docenti allineati in ARTE.

English

Large Language Models (LLMs) have shown significant promise as copilots in various tasks. Local deployment of LLMs on edge devices is necessary when handling privacy-sensitive data or latency-sensitive tasks. The computational constraints of such devices make direct deployment of powerful large-scale LLMs impractical, necessitating the Knowledge Distillation from large-scale models to lightweight models. Lots of work has been done to elicit diversity and quality training examples from LLMs, but little attention has been paid to aligning teacher instructional content based on student preferences, akin to "responsive teaching" in pedagogy. Thus, we propose ARTE, dubbed Aligning TeacheR with StudenT PreferencEs, a framework that aligns the teacher model with student preferences to generate tailored training examples for Knowledge Distillation. Specifically, we elicit draft questions and rationales from the teacher model, then collect student preferences on these questions and rationales using students' performance with in-context learning as a proxy, and finally align the teacher model with student preferences. In the end, we repeat the first step with the aligned teacher model to elicit tailored training examples for the student model on the target task. Extensive experiments on academic benchmarks demonstrate the superiority of ARTE over existing instruction-tuning datasets distilled from powerful LLMs. Moreover, we thoroughly investigate the generalization of ARTE, including the generalization of fine-tuned student models in reasoning ability and the generalization of aligned teacher models to generate tailored training data across tasks and students. In summary, our contributions lie in proposing a novel framework for tailored training example generation, demonstrating its efficacy in experiments, and investigating the generalization of both student & aligned teacher models in ARTE.

Allineamento delle Preferenze del Docente con quelle dello Studente per la Generazione di Dati di Addestramento Personalizzati

Aligning Teacher with Student Preferences for Tailored Training Data Generation

Abstract

Support