Melhorando o Ajuste Fino de Modelos de Linguagem de Grande Escala para Resolução de Problemas Matemáticos
Improving Large Language Model Fine-tuning for Solving Math Problems
October 16, 2023
Autores: Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co-Reyes, Peter J. Liu
cs.AI
Resumo
Apesar de seu sucesso em muitas tarefas de processamento de linguagem natural, a resolução de problemas matemáticos continua sendo um desafio significativo para os grandes modelos de linguagem (LLMs, na sigla em inglês). Existe uma grande lacuna entre o desempenho "pass-at-one" e "pass-at-N" dos LLMs na resolução de problemas matemáticos, sugerindo que os LLMs podem estar próximos de encontrar soluções corretas, o que motiva nossa exploração de métodos de fine-tuning para desbloquear o desempenho desses modelos. Utilizando o desafiador conjunto de dados MATH, investigamos três estratégias de fine-tuning: (1) fine-tuning de solução, onde ajustamos o modelo para gerar uma solução detalhada para um problema matemático dado; (2) reclassificação de clusters de soluções, onde o LLM é ajustado como um verificador/avaliador de soluções para escolher entre clusters de soluções candidatas geradas; (3) fine-tuning sequencial multitarefa, que integra de forma eficiente as tarefas de geração e avaliação de soluções para melhorar o desempenho do LLM. Com esses métodos, apresentamos um estudo empírico abrangente em uma série de modelos PaLM 2 e descobrimos: (1) A qualidade e o estilo das soluções passo a passo usadas para o fine-tuning podem ter um impacto significativo no desempenho do modelo; (2) Embora a reclassificação de soluções e a votação majoritária sejam ambas eficazes para melhorar o desempenho do modelo quando usadas separadamente, elas também podem ser usadas em conjunto para um aumento ainda maior no desempenho; (3) O fine-tuning multitarefa que separa sequencialmente as tarefas de geração e avaliação de soluções pode oferecer um desempenho melhorado em comparação com a linha de base de fine-tuning de solução. Guiados por essas descobertas, projetamos uma receita de fine-tuning que resulta em aproximadamente 58,8% de precisão no conjunto de dados MATH com modelos PaLM 2-L ajustados, uma melhoria de 11,2% na precisão em relação ao desempenho few-shot do modelo PaLM 2-L pré-treinado com votação majoritária.
English
Despite their success in many natural language tasks, solving math problems
remains a significant challenge for large language models (LLMs). A large gap
exists between LLMs' pass-at-one and pass-at-N performance in solving math
problems, suggesting LLMs might be close to finding correct solutions,
motivating our exploration of fine-tuning methods to unlock LLMs' performance.
Using the challenging MATH dataset, we investigate three fine-tuning
strategies: (1) solution fine-tuning, where we fine-tune to generate a detailed
solution for a given math problem; (2) solution-cluster re-ranking, where the
LLM is fine-tuned as a solution verifier/evaluator to choose among generated
candidate solution clusters; (3) multi-task sequential fine-tuning, which
integrates both solution generation and evaluation tasks together efficiently
to enhance the LLM performance. With these methods, we present a thorough
empirical study on a series of PaLM 2 models and find: (1) The quality and
style of the step-by-step solutions used for fine-tuning can make a significant
impact on the model performance; (2) While solution re-ranking and majority
voting are both effective for improving the model performance when used
separately, they can also be used together for an even greater performance
boost; (3) Multi-task fine-tuning that sequentially separates the solution
generation and evaluation tasks can offer improved performance compared with
the solution fine-tuning baseline. Guided by these insights, we design a
fine-tuning recipe that yields approximately 58.8% accuracy on the MATH dataset
with fine-tuned PaLM 2-L models, an 11.2% accuracy improvement over the
few-shot performance of pre-trained PaLM 2-L model with majority voting.