Mentor-KD: Mejorando los Modelos de Lenguaje Pequeños como Razonadores Multietapa
Mentor-KD: Making Small Language Models Better Multi-step Reasoners
October 11, 2024
Autores: Hojae Lee, Junho Kim, SangKeun Lee
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs) han demostrado un rendimiento notable en diversas tareas complejas al aprovechar el enfoque de Cadena de Pensamiento (CoT). Recientemente, estudios han propuesto un enfoque de Destilación de Conocimiento (KD), razonamiento de destilación, que transfiere dicha capacidad de razonamiento de los LLMs mediante el ajuste fino de modelos de lenguaje con razonamientos de múltiples pasos generados por los LLMs maestros. Sin embargo, han considerado de manera insuficiente dos desafíos relacionados con conjuntos de destilación insuficientes del modelo maestro LLM, en términos de 1) calidad de los datos y 2) provisión de etiquetas suaves. En este documento, proponemos Mentor-KD, que destila de manera efectiva la capacidad de razonamiento de múltiples pasos de los LLMs a LMs más pequeños mientras aborda los desafíos mencionados anteriormente. Específicamente, explotamos un mentor, un modelo intermedio de tamaño específico de tarea ajustado fino, para aumentar anotaciones de CoT adicionales y proporcionar etiquetas suaves al modelo estudiante durante la destilación del razonamiento. Realizamos experimentos extensos y confirmamos la efectividad de Mentor-KD en diversos modelos y tareas de razonamiento complejas.
English
Large Language Models (LLMs) have displayed remarkable performances across
various complex tasks by leveraging Chain-of-Thought (CoT) prompting. Recently,
studies have proposed a Knowledge Distillation (KD) approach, reasoning
distillation, which transfers such reasoning ability of LLMs through
fine-tuning language models of multi-step rationales generated by LLM teachers.
However, they have inadequately considered two challenges regarding
insufficient distillation sets from the LLM teacher model, in terms of 1) data
quality and 2) soft label provision. In this paper, we propose Mentor-KD, which
effectively distills the multi-step reasoning capability of LLMs to smaller LMs
while addressing the aforementioned challenges. Specifically, we exploit a
mentor, intermediate-sized task-specific fine-tuned model, to augment
additional CoT annotations and provide soft labels for the student model during
reasoning distillation. We conduct extensive experiments and confirm
Mentor-KD's effectiveness across various models and complex reasoning tasks.Summary
AI-Generated Summary