ChatPaper.aiChatPaper

Alineación de las Preferencias del Profesor con las del Estudiante para la Generación de Datos de Entrenamiento Personalizados

Aligning Teacher with Student Preferences for Tailored Training Data Generation

June 27, 2024
Autores: Yantao Liu, Zhao Zhang, Zijun Yao, Shulin Cao, Lei Hou, Juanzi Li
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un potencial significativo como copilotos en diversas tareas. El despliegue local de LLMs en dispositivos de borde es necesario cuando se manejan datos sensibles a la privacidad o tareas sensibles a la latencia. Las limitaciones computacionales de estos dispositivos hacen que el despliegue directo de LLMs potentes y de gran escala sea poco práctico, lo que requiere la Distilación de Conocimiento desde modelos de gran escala hacia modelos ligeros. Se ha realizado mucho trabajo para obtener ejemplos de entrenamiento diversos y de calidad a partir de LLMs, pero se ha prestado poca atención a alinear el contenido instructivo del profesor según las preferencias del estudiante, similar a la "enseñanza receptiva" en pedagogía. Por ello, proponemos ARTE, denominado Alineación del Profesor con las Preferencias del Estudiante, un marco que alinea el modelo del profesor con las preferencias del estudiante para generar ejemplos de entrenamiento personalizados para la Distilación de Conocimiento. Específicamente, obtenemos preguntas y razonamientos preliminares del modelo del profesor, luego recopilamos las preferencias del estudiante sobre estas preguntas y razonamientos utilizando el rendimiento del estudiante con aprendizaje en contexto como indicador, y finalmente alineamos el modelo del profesor con las preferencias del estudiante. Al final, repetimos el primer paso con el modelo del profesor alineado para obtener ejemplos de entrenamiento personalizados para el modelo del estudiante en la tarea objetivo. Experimentos extensos en benchmarks académicos demuestran la superioridad de ARTE sobre los conjuntos de datos de ajuste de instrucción existentes destilados de LLMs potentes. Además, investigamos exhaustivamente la generalización de ARTE, incluyendo la generalización de los modelos de estudiante ajustados en su capacidad de razonamiento y la generalización de los modelos del profesor alineados para generar datos de entrenamiento personalizados en diferentes tareas y estudiantes. En resumen, nuestras contribuciones radican en proponer un marco novedoso para la generación de ejemplos de entrenamiento personalizados, demostrar su eficacia en experimentos e investigar la generalización tanto de los modelos de estudiante como de los modelos del profesor alineados en ARTE.
English
Large Language Models (LLMs) have shown significant promise as copilots in various tasks. Local deployment of LLMs on edge devices is necessary when handling privacy-sensitive data or latency-sensitive tasks. The computational constraints of such devices make direct deployment of powerful large-scale LLMs impractical, necessitating the Knowledge Distillation from large-scale models to lightweight models. Lots of work has been done to elicit diversity and quality training examples from LLMs, but little attention has been paid to aligning teacher instructional content based on student preferences, akin to "responsive teaching" in pedagogy. Thus, we propose ARTE, dubbed Aligning TeacheR with StudenT PreferencEs, a framework that aligns the teacher model with student preferences to generate tailored training examples for Knowledge Distillation. Specifically, we elicit draft questions and rationales from the teacher model, then collect student preferences on these questions and rationales using students' performance with in-context learning as a proxy, and finally align the teacher model with student preferences. In the end, we repeat the first step with the aligned teacher model to elicit tailored training examples for the student model on the target task. Extensive experiments on academic benchmarks demonstrate the superiority of ARTE over existing instruction-tuning datasets distilled from powerful LLMs. Moreover, we thoroughly investigate the generalization of ARTE, including the generalization of fine-tuned student models in reasoning ability and the generalization of aligned teacher models to generate tailored training data across tasks and students. In summary, our contributions lie in proposing a novel framework for tailored training example generation, demonstrating its efficacy in experiments, and investigating the generalization of both student & aligned teacher models in ARTE.

Summary

AI-Generated Summary

PDF262November 29, 2024