Aperfeiçoamento de Modelos de Linguagem Grandes com Estratégias de Aprendizado Inspiradas em Humanos na Resposta a Questões Médicas
Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering
August 15, 2024
Autores: Yushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi
cs.AI
Resumo
O treinamento de Modelos de Linguagem Grandes (LLMs) incorre em custos substanciais relacionados aos dados, motivando o desenvolvimento de métodos de treinamento eficientes em dados por meio da otimização da ordenação e seleção de dados. Estratégias de aprendizado inspiradas em humanos, como o aprendizado curricular, oferecem possibilidades para treinamento eficiente ao organizar os dados de acordo com práticas comuns de aprendizado humano. Apesar de evidências de que o ajuste fino com aprendizado curricular melhora o desempenho de LLMs em tarefas de compreensão de linguagem natural, sua eficácia é tipicamente avaliada usando um único modelo. Neste trabalho, estendemos pesquisas anteriores avaliando estratégias de aprendizado baseadas em currículo e não baseadas em currículo em vários LLMs, utilizando rótulos de dados para resposta a questões médicas definidos por humanos e automaticamente. Nossos resultados indicam um impacto moderado do uso de estratégias de aprendizado inspiradas em humanos para ajuste fino de LLMs, com ganhos máximos de precisão de 1,77% por modelo e 1,81% por conjunto de dados. Crucialmente, demonstramos que a eficácia dessas estratégias varia significativamente entre diferentes combinações de modelo e conjunto de dados, enfatizando que os benefícios de uma estratégia específica inspirada em humanos para ajuste fino de LLMs não são generalizáveis. Além disso, encontramos evidências de que o aprendizado curricular usando a dificuldade de questões definida por LLM supera a dificuldade definida por humanos, destacando o potencial do uso de medidas geradas pelo modelo para um design curricular ideal.
English
Training Large Language Models (LLMs) incurs substantial data-related costs,
motivating the development of data-efficient training methods through optimised
data ordering and selection. Human-inspired learning strategies, such as
curriculum learning, offer possibilities for efficient training by organising
data according to common human learning practices. Despite evidence that
fine-tuning with curriculum learning improves the performance of LLMs for
natural language understanding tasks, its effectiveness is typically assessed
using a single model. In this work, we extend previous research by evaluating
both curriculum-based and non-curriculum-based learning strategies across
multiple LLMs, using human-defined and automated data labels for medical
question answering. Our results indicate a moderate impact of using
human-inspired learning strategies for fine-tuning LLMs, with maximum accuracy
gains of 1.77% per model and 1.81% per dataset. Crucially, we demonstrate that
the effectiveness of these strategies varies significantly across different
model-dataset combinations, emphasising that the benefits of a specific
human-inspired strategy for fine-tuning LLMs do not generalise. Additionally,
we find evidence that curriculum learning using LLM-defined question difficulty
outperforms human-defined difficulty, highlighting the potential of using
model-generated measures for optimal curriculum design.Summary
AI-Generated Summary