Aperfeiçoamento de Modelos de Linguagem Grandes com Estratégias de Aprendizado Inspiradas em Humanos na Resposta a Questões Médicas

Resumo

O treinamento de Modelos de Linguagem Grandes (LLMs) incorre em custos substanciais relacionados aos dados, motivando o desenvolvimento de métodos de treinamento eficientes em dados por meio da otimização da ordenação e seleção de dados. Estratégias de aprendizado inspiradas em humanos, como o aprendizado curricular, oferecem possibilidades para treinamento eficiente ao organizar os dados de acordo com práticas comuns de aprendizado humano. Apesar de evidências de que o ajuste fino com aprendizado curricular melhora o desempenho de LLMs em tarefas de compreensão de linguagem natural, sua eficácia é tipicamente avaliada usando um único modelo. Neste trabalho, estendemos pesquisas anteriores avaliando estratégias de aprendizado baseadas em currículo e não baseadas em currículo em vários LLMs, utilizando rótulos de dados para resposta a questões médicas definidos por humanos e automaticamente. Nossos resultados indicam um impacto moderado do uso de estratégias de aprendizado inspiradas em humanos para ajuste fino de LLMs, com ganhos máximos de precisão de 1,77% por modelo e 1,81% por conjunto de dados. Crucialmente, demonstramos que a eficácia dessas estratégias varia significativamente entre diferentes combinações de modelo e conjunto de dados, enfatizando que os benefícios de uma estratégia específica inspirada em humanos para ajuste fino de LLMs não são generalizáveis. Além disso, encontramos evidências de que o aprendizado curricular usando a dificuldade de questões definida por LLM supera a dificuldade definida por humanos, destacando o potencial do uso de medidas geradas pelo modelo para um design curricular ideal.

English

Training Large Language Models (LLMs) incurs substantial data-related costs, motivating the development of data-efficient training methods through optimised data ordering and selection. Human-inspired learning strategies, such as curriculum learning, offer possibilities for efficient training by organising data according to common human learning practices. Despite evidence that fine-tuning with curriculum learning improves the performance of LLMs for natural language understanding tasks, its effectiveness is typically assessed using a single model. In this work, we extend previous research by evaluating both curriculum-based and non-curriculum-based learning strategies across multiple LLMs, using human-defined and automated data labels for medical question answering. Our results indicate a moderate impact of using human-inspired learning strategies for fine-tuning LLMs, with maximum accuracy gains of 1.77% per model and 1.81% per dataset. Crucially, we demonstrate that the effectiveness of these strategies varies significantly across different model-dataset combinations, emphasising that the benefits of a specific human-inspired strategy for fine-tuning LLMs do not generalise. Additionally, we find evidence that curriculum learning using LLM-defined question difficulty outperforms human-defined difficulty, highlighting the potential of using model-generated measures for optimal curriculum design.

Aperfeiçoamento de Modelos de Linguagem Grandes com Estratégias de Aprendizado Inspiradas em Humanos na Resposta a Questões Médicas

Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering

Resumo

Summary

Support

Support