Dr. LLaMA: Aprimorando Modelos de Linguagem Pequenos em QA Específico de Domínio por meio de Aumento de Dados Generativo
Dr. LLaMA: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation
May 12, 2023
Autores: Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm feito avanços significativos no processamento de linguagem natural, mas enfrentam desafios em termos de custo computacional e ineficiência à medida que crescem em tamanho, especialmente em tarefas específicas de domínio. Por outro lado, os Modelos de Linguagem de Pequena Escala (SLMs, na sigla em inglês) frequentemente têm dificuldades nessas tarefas devido à capacidade limitada e ao escasso volume de dados de treinamento. Neste artigo, apresentamos o Dr. LLaMA, um método para aprimorar SLMs por meio de aumento de dados generativo utilizando LLMs, com foco em tarefas de resposta a perguntas médicas e no conjunto de dados PubMedQA. Nossos resultados indicam que os LLMs refinam e diversificam efetivamente pares de perguntas e respostas existentes, resultando em um desempenho aprimorado de um modelo muito menor em conjuntos de dados de perguntas e respostas específicos de domínio após o ajuste fino. Este estudo destaca os desafios de usar LLMs para tarefas de resposta a perguntas específicas de domínio e sugere possíveis direções de pesquisa para abordar essas limitações, visando, em última instância, criar modelos mais eficientes e capazes para aplicações especializadas. Também disponibilizamos nosso código para pesquisadores interessados.
English
Large Language Models (LLMs) have made significant strides in natural
language processing but face challenges in terms of computational expense and
inefficiency as they grow in size, especially in domain-specific tasks. Small
Language Models (SLMs), on the other hand, often struggle in these tasks due to
limited capacity and training data. In this paper, we introduce Dr. LLaMA, a
method for improving SLMs through generative data augmentation using LLMs,
focusing on medical question-answering tasks and the PubMedQA dataset. Our
findings indicate that LLMs effectively refine and diversify existing
question-answer pairs, resulting in improved performance of a much smaller
model on domain-specific QA datasets after fine-tuning. This study highlights
the challenges of using LLMs for domain-specific question answering and
suggests potential research directions to address these limitations, ultimately
aiming to create more efficient and capable models for specialized
applications. We have also made our code available for interested researchers