Voorbij Fine-tuning: Het Potentieel van Continue Pretraining Benutten voor Klinische LLM's

Samenvatting

Grote Taalmodellen (LLM's) hebben aanzienlijk potentieel aangetoond bij het transformeren van klinische toepassingen. In deze studie onderzoeken we de doeltreffendheid van vier technieken bij het aanpassen van LLM's voor klinische gebruiksscenario's: continue pretraining, instructie fijnafstemming, NEFTune en prompt engineering. We passen deze methoden toe op de Mistral 7B en Mixtral 8x7B modellen, gebruikmakend van een grootschalige klinische pretraining dataset van 50 miljard tokens en een instructie fijnafstemming dataset van 500 miljoen tokens. Onze evaluatie over verschillende klinische taken onthult de impact van elke techniek. Hoewel continue pretraining voorbij 250 miljard tokens op zichzelf marginale verbeteringen oplevert, legt het een sterke basis voor instructie fijnafstemming. Opmerkelijk genoeg vertoont NEFTune, primair ontworpen om de generatiekwaliteit te verbeteren, extra winst op onze benchmark. Complex prompt engineering methoden verbeteren de prestaties verder. Deze bevindingen tonen het belang aan van het afstemmen van fijnafstemmingstrategieën en het verkennen van innovatieve technieken om de prestaties van LLM's in het klinische domein te optimaliseren.

English

Large Language Models (LLMs) have demonstrated significant potential in transforming clinical applications. In this study, we investigate the efficacy of four techniques in adapting LLMs for clinical use-cases: continuous pretraining, instruct fine-tuning, NEFTune, and prompt engineering. We employ these methods on Mistral 7B and Mixtral 8x7B models, leveraging a large-scale clinical pretraining dataset of 50 billion tokens and an instruct fine-tuning dataset of 500 million tokens. Our evaluation across various clinical tasks reveals the impact of each technique. While continuous pretraining beyond 250 billion tokens yields marginal improvements on its own, it establishes a strong foundation for instruct fine-tuning. Notably, NEFTune, designed primarily to enhance generation quality, surprisingly demonstrates additional gains on our benchmark. Complex prompt engineering methods further enhance performance. These findings show the importance of tailoring fine-tuning strategies and exploring innovative techniques to optimize LLM performance in the clinical domain.

Voorbij Fine-tuning: Het Potentieel van Continue Pretraining Benutten voor Klinische LLM's

Beyond Fine-tuning: Unleashing the Potential of Continuous Pretraining for Clinical LLMs

Samenvatting

Support