Mentor-KD: Mejorando los Modelos de Lenguaje Pequeños como Razonadores Multietapa

Resumen

Los Modelos de Lenguaje Grandes (LLMs) han demostrado un rendimiento notable en diversas tareas complejas al aprovechar el enfoque de Cadena de Pensamiento (CoT). Recientemente, estudios han propuesto un enfoque de Destilación de Conocimiento (KD), razonamiento de destilación, que transfiere dicha capacidad de razonamiento de los LLMs mediante el ajuste fino de modelos de lenguaje con razonamientos de múltiples pasos generados por los LLMs maestros. Sin embargo, han considerado de manera insuficiente dos desafíos relacionados con conjuntos de destilación insuficientes del modelo maestro LLM, en términos de 1) calidad de los datos y 2) provisión de etiquetas suaves. En este documento, proponemos Mentor-KD, que destila de manera efectiva la capacidad de razonamiento de múltiples pasos de los LLMs a LMs más pequeños mientras aborda los desafíos mencionados anteriormente. Específicamente, explotamos un mentor, un modelo intermedio de tamaño específico de tarea ajustado fino, para aumentar anotaciones de CoT adicionales y proporcionar etiquetas suaves al modelo estudiante durante la destilación del razonamiento. Realizamos experimentos extensos y confirmamos la efectividad de Mentor-KD en diversos modelos y tareas de razonamiento complejas.

English

Large Language Models (LLMs) have displayed remarkable performances across various complex tasks by leveraging Chain-of-Thought (CoT) prompting. Recently, studies have proposed a Knowledge Distillation (KD) approach, reasoning distillation, which transfers such reasoning ability of LLMs through fine-tuning language models of multi-step rationales generated by LLM teachers. However, they have inadequately considered two challenges regarding insufficient distillation sets from the LLM teacher model, in terms of 1) data quality and 2) soft label provision. In this paper, we propose Mentor-KD, which effectively distills the multi-step reasoning capability of LLMs to smaller LMs while addressing the aforementioned challenges. Specifically, we exploit a mentor, intermediate-sized task-specific fine-tuned model, to augment additional CoT annotations and provide soft labels for the student model during reasoning distillation. We conduct extensive experiments and confirm Mentor-KD's effectiveness across various models and complex reasoning tasks.

Mentor-KD: Mejorando los Modelos de Lenguaje Pequeños como Razonadores Multietapa

Mentor-KD: Making Small Language Models Better Multi-step Reasoners

Resumen

Support