ChatPaper.aiChatPaper

Dr. LLaMA: Mejora de Modelos de Lenguaje Pequeños en Preguntas y Respuestas Específicas de Dominio mediante Aumento Generativo de Datos

Dr. LLaMA: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation

May 12, 2023
Autores: Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances significativos en el procesamiento del lenguaje natural, pero enfrentan desafíos en términos de coste computacional e ineficiencia a medida que aumentan de tamaño, especialmente en tareas específicas de dominio. Por otro lado, los Modelos de Lenguaje Pequeños (SLMs) suelen tener dificultades en estas tareas debido a su capacidad limitada y a la escasez de datos de entrenamiento. En este artículo, presentamos Dr. LLaMA, un método para mejorar los SLMs mediante la ampliación de datos generativos utilizando LLMs, centrándonos en tareas de respuesta a preguntas médicas y en el conjunto de datos PubMedQA. Nuestros hallazgos indican que los LLMs refinan y diversifican eficazmente los pares de preguntas y respuestas existentes, lo que resulta en un mejor rendimiento de un modelo mucho más pequeño en conjuntos de datos de preguntas y respuestas específicos del dominio después del ajuste fino. Este estudio destaca los desafíos de utilizar LLMs para la respuesta a preguntas específicas de dominio y sugiere posibles direcciones de investigación para abordar estas limitaciones, con el objetivo final de crear modelos más eficientes y capaces para aplicaciones especializadas. También hemos puesto a disposición nuestro código para los investigadores interesados.
English
Large Language Models (LLMs) have made significant strides in natural language processing but face challenges in terms of computational expense and inefficiency as they grow in size, especially in domain-specific tasks. Small Language Models (SLMs), on the other hand, often struggle in these tasks due to limited capacity and training data. In this paper, we introduce Dr. LLaMA, a method for improving SLMs through generative data augmentation using LLMs, focusing on medical question-answering tasks and the PubMedQA dataset. Our findings indicate that LLMs effectively refine and diversify existing question-answer pairs, resulting in improved performance of a much smaller model on domain-specific QA datasets after fine-tuning. This study highlights the challenges of using LLMs for domain-specific question answering and suggests potential research directions to address these limitations, ultimately aiming to create more efficient and capable models for specialized applications. We have also made our code available for interested researchers
PDF21December 15, 2024