Más allá del ajuste fino: Liberando el Potencial del Preentrenamiento Continuo para LLMs Clínicos
Beyond Fine-tuning: Unleashing the Potential of Continuous Pretraining for Clinical LLMs
September 23, 2024
Autores: Clément Christophe, Tathagata Raha, Svetlana Maslenkova, Muhammad Umar Salman, Praveen K Kanithi, Marco AF Pimentel, Shadab Khan
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado un potencial significativo en la transformación de aplicaciones clínicas. En este estudio, investigamos la eficacia de cuatro técnicas para adaptar los LLMs a casos de uso clínico: preentrenamiento continuo, ajuste fino instructivo, NEFTune y ingeniería de indicaciones. Aplicamos estos métodos en los modelos Mistral 7B y Mixtral 8x7B, aprovechando un conjunto de datos de preentrenamiento clínico a gran escala de 50 mil millones de tokens y un conjunto de datos de ajuste fino instructivo de 500 millones de tokens. Nuestra evaluación en diversas tareas clínicas revela el impacto de cada técnica. Mientras que el preentrenamiento continuo más allá de 250 mil millones de tokens produce mejoras marginales por sí solo, sienta una base sólida para el ajuste fino instructivo. Notablemente, NEFTune, diseñado principalmente para mejorar la calidad de generación, muestra sorprendentemente ganancias adicionales en nuestro punto de referencia. Los métodos de ingeniería de indicaciones complejas mejoran aún más el rendimiento. Estos hallazgos muestran la importancia de adaptar estrategias de ajuste fino y explorar técnicas innovadoras para optimizar el rendimiento de los LLMs en el ámbito clínico.
English
Large Language Models (LLMs) have demonstrated significant potential in
transforming clinical applications. In this study, we investigate the efficacy
of four techniques in adapting LLMs for clinical use-cases: continuous
pretraining, instruct fine-tuning, NEFTune, and prompt engineering. We employ
these methods on Mistral 7B and Mixtral 8x7B models, leveraging a large-scale
clinical pretraining dataset of 50 billion tokens and an instruct fine-tuning
dataset of 500 million tokens. Our evaluation across various clinical tasks
reveals the impact of each technique. While continuous pretraining beyond 250
billion tokens yields marginal improvements on its own, it establishes a strong
foundation for instruct fine-tuning. Notably, NEFTune, designed primarily to
enhance generation quality, surprisingly demonstrates additional gains on our
benchmark. Complex prompt engineering methods further enhance performance.
These findings show the importance of tailoring fine-tuning strategies and
exploring innovative techniques to optimize LLM performance in the clinical
domain.Summary
AI-Generated Summary