Mentor-KD: Tornando Modelos de Linguagem Pequenos em Melhores Raciocinadores Multietapa
Mentor-KD: Making Small Language Models Better Multi-step Reasoners
October 11, 2024
Autores: Hojae Lee, Junho Kim, SangKeun Lee
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) têm exibido desempenhos notáveis em várias tarefas complexas ao aproveitar a técnica de Encadeamento de Pensamento (CoT). Recentemente, estudos têm proposto uma abordagem de Destilação de Conhecimento (KD), chamada de destilação de raciocínio, que transfere essa capacidade de raciocínio dos LLMs por meio do ajuste fino de modelos de linguagem com justificativas de vários passos geradas pelos LLMs professores. No entanto, eles têm considerado de forma inadequada dois desafios relacionados à insuficiência de conjuntos de destilação do modelo professor LLM, em termos de 1) qualidade dos dados e 2) fornecimento de rótulos suaves. Neste artigo, propomos o Mentor-KD, que destila de forma eficaz a capacidade de raciocínio de vários passos dos LLMs para LMs menores, ao lidar com os desafios mencionados anteriormente. Especificamente, exploramos um mentor, um modelo intermediário de tamanho específico da tarefa ajustado finamente, para adicionar anotações CoT adicionais e fornecer rótulos suaves para o modelo aluno durante a destilação de raciocínio. Realizamos experimentos extensivos e confirmamos a eficácia do Mentor-KD em vários modelos e tarefas complexas de raciocínio.
English
Large Language Models (LLMs) have displayed remarkable performances across
various complex tasks by leveraging Chain-of-Thought (CoT) prompting. Recently,
studies have proposed a Knowledge Distillation (KD) approach, reasoning
distillation, which transfers such reasoning ability of LLMs through
fine-tuning language models of multi-step rationales generated by LLM teachers.
However, they have inadequately considered two challenges regarding
insufficient distillation sets from the LLM teacher model, in terms of 1) data
quality and 2) soft label provision. In this paper, we propose Mentor-KD, which
effectively distills the multi-step reasoning capability of LLMs to smaller LMs
while addressing the aforementioned challenges. Specifically, we exploit a
mentor, intermediate-sized task-specific fine-tuned model, to augment
additional CoT annotations and provide soft labels for the student model during
reasoning distillation. We conduct extensive experiments and confirm
Mentor-KD's effectiveness across various models and complex reasoning tasks.Summary
AI-Generated Summary