Ajuste fino de Modelos de Lenguaje Grandes con Estrategias de Aprendizaje Inspiradas en Humanos en la Respuesta a Preguntas Médicas

Resumen

Entrenar Modelos de Lenguaje Grandes (LLMs) conlleva costos sustanciales relacionados con los datos, lo que motiva el desarrollo de métodos de entrenamiento eficientes en datos a través de la optimización del orden y la selección de datos. Estrategias de aprendizaje inspiradas en humanos, como el aprendizaje por currículo, ofrecen posibilidades para un entrenamiento eficiente al organizar los datos de acuerdo con prácticas comunes de aprendizaje humano. A pesar de la evidencia de que el ajuste fino con aprendizaje por currículo mejora el rendimiento de LLMs para tareas de comprensión del lenguaje natural, su efectividad se evalúa típicamente utilizando un solo modelo. En este trabajo, ampliamos investigaciones anteriores evaluando estrategias de aprendizaje basadas en currículo y no basadas en currículo en varios LLMs, utilizando etiquetas de datos definidas por humanos y de forma automatizada para responder preguntas médicas. Nuestros resultados indican un impacto moderado del uso de estrategias de aprendizaje inspiradas en humanos para el ajuste fino de LLMs, con ganancias máximas de precisión de 1.77% por modelo y 1.81% por conjunto de datos. Esencialmente, demostramos que la efectividad de estas estrategias varía significativamente entre diferentes combinaciones de modelo y conjunto de datos, enfatizando que los beneficios de una estrategia específica inspirada en humanos para el ajuste fino de LLMs no se generalizan. Además, encontramos evidencia de que el aprendizaje por currículo utilizando la dificultad de las preguntas definida por LLM supera a la dificultad definida por humanos, resaltando el potencial de utilizar medidas generadas por el modelo para un diseño curricular óptimo.

English

Training Large Language Models (LLMs) incurs substantial data-related costs, motivating the development of data-efficient training methods through optimised data ordering and selection. Human-inspired learning strategies, such as curriculum learning, offer possibilities for efficient training by organising data according to common human learning practices. Despite evidence that fine-tuning with curriculum learning improves the performance of LLMs for natural language understanding tasks, its effectiveness is typically assessed using a single model. In this work, we extend previous research by evaluating both curriculum-based and non-curriculum-based learning strategies across multiple LLMs, using human-defined and automated data labels for medical question answering. Our results indicate a moderate impact of using human-inspired learning strategies for fine-tuning LLMs, with maximum accuracy gains of 1.77% per model and 1.81% per dataset. Crucially, we demonstrate that the effectiveness of these strategies varies significantly across different model-dataset combinations, emphasising that the benefits of a specific human-inspired strategy for fine-tuning LLMs do not generalise. Additionally, we find evidence that curriculum learning using LLM-defined question difficulty outperforms human-defined difficulty, highlighting the potential of using model-generated measures for optimal curriculum design.

Ajuste fino de Modelos de Lenguaje Grandes con Estrategias de Aprendizaje Inspiradas en Humanos en la Respuesta a Preguntas Médicas

Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering

Resumen

Support