Ajuste fino de Modelos de Lenguaje Grandes con Estrategias de Aprendizaje Inspiradas en Humanos en la Respuesta a Preguntas Médicas
Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering
August 15, 2024
Autores: Yushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi
cs.AI
Resumen
Entrenar Modelos de Lenguaje Grandes (LLMs) conlleva costos sustanciales relacionados con los datos, lo que motiva el desarrollo de métodos de entrenamiento eficientes en datos a través de la optimización del orden y la selección de datos. Estrategias de aprendizaje inspiradas en humanos, como el aprendizaje por currículo, ofrecen posibilidades para un entrenamiento eficiente al organizar los datos de acuerdo con prácticas comunes de aprendizaje humano. A pesar de la evidencia de que el ajuste fino con aprendizaje por currículo mejora el rendimiento de LLMs para tareas de comprensión del lenguaje natural, su efectividad se evalúa típicamente utilizando un solo modelo. En este trabajo, ampliamos investigaciones anteriores evaluando estrategias de aprendizaje basadas en currículo y no basadas en currículo en varios LLMs, utilizando etiquetas de datos definidas por humanos y de forma automatizada para responder preguntas médicas. Nuestros resultados indican un impacto moderado del uso de estrategias de aprendizaje inspiradas en humanos para el ajuste fino de LLMs, con ganancias máximas de precisión de 1.77% por modelo y 1.81% por conjunto de datos. Esencialmente, demostramos que la efectividad de estas estrategias varía significativamente entre diferentes combinaciones de modelo y conjunto de datos, enfatizando que los beneficios de una estrategia específica inspirada en humanos para el ajuste fino de LLMs no se generalizan. Además, encontramos evidencia de que el aprendizaje por currículo utilizando la dificultad de las preguntas definida por LLM supera a la dificultad definida por humanos, resaltando el potencial de utilizar medidas generadas por el modelo para un diseño curricular óptimo.
English
Training Large Language Models (LLMs) incurs substantial data-related costs,
motivating the development of data-efficient training methods through optimised
data ordering and selection. Human-inspired learning strategies, such as
curriculum learning, offer possibilities for efficient training by organising
data according to common human learning practices. Despite evidence that
fine-tuning with curriculum learning improves the performance of LLMs for
natural language understanding tasks, its effectiveness is typically assessed
using a single model. In this work, we extend previous research by evaluating
both curriculum-based and non-curriculum-based learning strategies across
multiple LLMs, using human-defined and automated data labels for medical
question answering. Our results indicate a moderate impact of using
human-inspired learning strategies for fine-tuning LLMs, with maximum accuracy
gains of 1.77% per model and 1.81% per dataset. Crucially, we demonstrate that
the effectiveness of these strategies varies significantly across different
model-dataset combinations, emphasising that the benefits of a specific
human-inspired strategy for fine-tuning LLMs do not generalise. Additionally,
we find evidence that curriculum learning using LLM-defined question difficulty
outperforms human-defined difficulty, highlighting the potential of using
model-generated measures for optimal curriculum design.Summary
AI-Generated Summary