Voorbij Fine-tuning: Het Potentieel van Continue Pretraining Benutten voor Klinische LLM's
Beyond Fine-tuning: Unleashing the Potential of Continuous Pretraining for Clinical LLMs
September 23, 2024
Auteurs: Clément Christophe, Tathagata Raha, Svetlana Maslenkova, Muhammad Umar Salman, Praveen K Kanithi, Marco AF Pimentel, Shadab Khan
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) hebben aanzienlijk potentieel aangetoond bij het transformeren van klinische toepassingen. In deze studie onderzoeken we de doeltreffendheid van vier technieken bij het aanpassen van LLM's voor klinische gebruiksscenario's: continue pretraining, instructie fijnafstemming, NEFTune en prompt engineering. We passen deze methoden toe op de Mistral 7B en Mixtral 8x7B modellen, gebruikmakend van een grootschalige klinische pretraining dataset van 50 miljard tokens en een instructie fijnafstemming dataset van 500 miljoen tokens. Onze evaluatie over verschillende klinische taken onthult de impact van elke techniek. Hoewel continue pretraining voorbij 250 miljard tokens op zichzelf marginale verbeteringen oplevert, legt het een sterke basis voor instructie fijnafstemming. Opmerkelijk genoeg vertoont NEFTune, primair ontworpen om de generatiekwaliteit te verbeteren, extra winst op onze benchmark. Complex prompt engineering methoden verbeteren de prestaties verder. Deze bevindingen tonen het belang aan van het afstemmen van fijnafstemmingstrategieën en het verkennen van innovatieve technieken om de prestaties van LLM's in het klinische domein te optimaliseren.
English
Large Language Models (LLMs) have demonstrated significant potential in
transforming clinical applications. In this study, we investigate the efficacy
of four techniques in adapting LLMs for clinical use-cases: continuous
pretraining, instruct fine-tuning, NEFTune, and prompt engineering. We employ
these methods on Mistral 7B and Mixtral 8x7B models, leveraging a large-scale
clinical pretraining dataset of 50 billion tokens and an instruct fine-tuning
dataset of 500 million tokens. Our evaluation across various clinical tasks
reveals the impact of each technique. While continuous pretraining beyond 250
billion tokens yields marginal improvements on its own, it establishes a strong
foundation for instruct fine-tuning. Notably, NEFTune, designed primarily to
enhance generation quality, surprisingly demonstrates additional gains on our
benchmark. Complex prompt engineering methods further enhance performance.
These findings show the importance of tailoring fine-tuning strategies and
exploring innovative techniques to optimize LLM performance in the clinical
domain.