Dr. LLaMA: Miglioramento dei Modelli Linguistici di Piccole Dimensioni nel QA Specifico di Dominio tramite Aumento Generativo dei Dati

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno compiuto progressi significativi nell'elaborazione del linguaggio naturale, ma affrontano sfide legate ai costi computazionali e all'inefficienza man mano che aumentano di dimensioni, specialmente in compiti specifici per dominio. I modelli linguistici di piccole dimensioni (SLM), d'altra parte, spesso faticano in questi compiti a causa di una capacità limitata e di dati di addestramento insufficienti. In questo articolo, introduciamo Dr. LLaMA, un metodo per migliorare gli SLM attraverso l'aumento dei dati generativi utilizzando gli LLM, concentrandoci su compiti di risposta a domande in ambito medico e sul dataset PubMedQA. I nostri risultati indicano che gli LLM affinano e diversificano efficacemente le coppie domanda-risposta esistenti, portando a un miglioramento delle prestazioni di un modello molto più piccolo su dataset di domande e risposte specifici per dominio dopo il fine-tuning. Questo studio evidenzia le sfide legate all'uso degli LLM per la risposta a domande specifiche per dominio e suggerisce potenziali direzioni di ricerca per affrontare queste limitazioni, con l'obiettivo finale di creare modelli più efficienti e capaci per applicazioni specializzate. Abbiamo anche reso disponibile il nostro codice per i ricercatori interessati.

English

Large Language Models (LLMs) have made significant strides in natural language processing but face challenges in terms of computational expense and inefficiency as they grow in size, especially in domain-specific tasks. Small Language Models (SLMs), on the other hand, often struggle in these tasks due to limited capacity and training data. In this paper, we introduce Dr. LLaMA, a method for improving SLMs through generative data augmentation using LLMs, focusing on medical question-answering tasks and the PubMedQA dataset. Our findings indicate that LLMs effectively refine and diversify existing question-answer pairs, resulting in improved performance of a much smaller model on domain-specific QA datasets after fine-tuning. This study highlights the challenges of using LLMs for domain-specific question answering and suggests potential research directions to address these limitations, ultimately aiming to create more efficient and capable models for specialized applications. We have also made our code available for interested researchers

Dr. LLaMA: Miglioramento dei Modelli Linguistici di Piccole Dimensioni nel QA Specifico di Dominio tramite Aumento Generativo dei Dati

Dr. LLaMA: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation

Abstract

Support