Mentor-KD: Tornando Modelos de Linguagem Pequenos em Melhores Raciocinadores Multietapa

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) têm exibido desempenhos notáveis em várias tarefas complexas ao aproveitar a técnica de Encadeamento de Pensamento (CoT). Recentemente, estudos têm proposto uma abordagem de Destilação de Conhecimento (KD), chamada de destilação de raciocínio, que transfere essa capacidade de raciocínio dos LLMs por meio do ajuste fino de modelos de linguagem com justificativas de vários passos geradas pelos LLMs professores. No entanto, eles têm considerado de forma inadequada dois desafios relacionados à insuficiência de conjuntos de destilação do modelo professor LLM, em termos de 1) qualidade dos dados e 2) fornecimento de rótulos suaves. Neste artigo, propomos o Mentor-KD, que destila de forma eficaz a capacidade de raciocínio de vários passos dos LLMs para LMs menores, ao lidar com os desafios mencionados anteriormente. Especificamente, exploramos um mentor, um modelo intermediário de tamanho específico da tarefa ajustado finamente, para adicionar anotações CoT adicionais e fornecer rótulos suaves para o modelo aluno durante a destilação de raciocínio. Realizamos experimentos extensivos e confirmamos a eficácia do Mentor-KD em vários modelos e tarefas complexas de raciocínio.

English

Large Language Models (LLMs) have displayed remarkable performances across various complex tasks by leveraging Chain-of-Thought (CoT) prompting. Recently, studies have proposed a Knowledge Distillation (KD) approach, reasoning distillation, which transfers such reasoning ability of LLMs through fine-tuning language models of multi-step rationales generated by LLM teachers. However, they have inadequately considered two challenges regarding insufficient distillation sets from the LLM teacher model, in terms of 1) data quality and 2) soft label provision. In this paper, we propose Mentor-KD, which effectively distills the multi-step reasoning capability of LLMs to smaller LMs while addressing the aforementioned challenges. Specifically, we exploit a mentor, intermediate-sized task-specific fine-tuned model, to augment additional CoT annotations and provide soft labels for the student model during reasoning distillation. We conduct extensive experiments and confirm Mentor-KD's effectiveness across various models and complex reasoning tasks.

Mentor-KD: Tornando Modelos de Linguagem Pequenos em Melhores Raciocinadores Multietapa

Mentor-KD: Making Small Language Models Better Multi-step Reasoners

Resumo

Support