Verbetering van Fine-tuning van Grote Taalmodellen voor het Oplossen van Wiskundige Problemen
Improving Large Language Model Fine-tuning for Solving Math Problems
October 16, 2023
Auteurs: Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co-Reyes, Peter J. Liu
cs.AI
Samenvatting
Ondanks hun succes in veel natuurlijke taal-taken, blijft het oplossen van wiskundige problemen een aanzienlijke uitdaging voor grote taalmodellen (LLMs). Er bestaat een grote kloof tussen de pass-at-one en pass-at-N prestaties van LLMs bij het oplossen van wiskundige problemen, wat suggereert dat LLMs dicht bij het vinden van correcte oplossingen zouden kunnen zijn. Dit motiveert onze verkenning van fine-tuning methoden om de prestaties van LLMs te ontsluiten. Met behulp van de uitdagende MATH dataset onderzoeken we drie fine-tuning strategieën: (1) oplossingsgerichte fine-tuning, waarbij we fine-tunen om een gedetailleerde oplossing te genereren voor een gegeven wiskundig probleem; (2) oplossingscluster herrangschikking, waarbij het LLM wordt gefinetuned als een oplossingsverifier/-evaluator om te kiezen tussen gegenereerde kandidaat-oplossingsclusters; (3) multi-task sequentiële fine-tuning, waarbij zowel oplossingsgeneratie als evaluatietaken efficiënt worden geïntegreerd om de prestaties van het LLM te verbeteren. Met deze methoden presenteren we een grondige empirische studie op een reeks PaLM 2-modellen en vinden we: (1) De kwaliteit en stijl van de stap-voor-stap oplossingen die worden gebruikt voor fine-tuning kunnen een significante impact hebben op de modelprestaties; (2) Hoewel oplossingsherrangschikking en meerderheidsstemming beide effectief zijn voor het verbeteren van de modelprestaties wanneer ze afzonderlijk worden gebruikt, kunnen ze ook samen worden gebruikt voor een nog grotere prestatieverbetering; (3) Multi-task fine-tuning waarbij de oplossingsgeneratie en evaluatietaken sequentieel worden gescheiden, kan een verbeterde prestatie bieden in vergelijking met de oplossingsgerichte fine-tuning baseline. Geleid door deze inzichten ontwerpen we een fine-tuning recept dat een nauwkeurigheid van ongeveer 58,8% oplevert op de MATH dataset met gefinetunde PaLM 2-L modellen, een verbetering van 11,2% in nauwkeurigheid ten opzichte van de few-shot prestaties van het vooraf getrainde PaLM 2-L model met meerderheidsstemming.
English
Despite their success in many natural language tasks, solving math problems
remains a significant challenge for large language models (LLMs). A large gap
exists between LLMs' pass-at-one and pass-at-N performance in solving math
problems, suggesting LLMs might be close to finding correct solutions,
motivating our exploration of fine-tuning methods to unlock LLMs' performance.
Using the challenging MATH dataset, we investigate three fine-tuning
strategies: (1) solution fine-tuning, where we fine-tune to generate a detailed
solution for a given math problem; (2) solution-cluster re-ranking, where the
LLM is fine-tuned as a solution verifier/evaluator to choose among generated
candidate solution clusters; (3) multi-task sequential fine-tuning, which
integrates both solution generation and evaluation tasks together efficiently
to enhance the LLM performance. With these methods, we present a thorough
empirical study on a series of PaLM 2 models and find: (1) The quality and
style of the step-by-step solutions used for fine-tuning can make a significant
impact on the model performance; (2) While solution re-ranking and majority
voting are both effective for improving the model performance when used
separately, they can also be used together for an even greater performance
boost; (3) Multi-task fine-tuning that sequentially separates the solution
generation and evaluation tasks can offer improved performance compared with
the solution fine-tuning baseline. Guided by these insights, we design a
fine-tuning recipe that yields approximately 58.8% accuracy on the MATH dataset
with fine-tuned PaLM 2-L models, an 11.2% accuracy improvement over the
few-shot performance of pre-trained PaLM 2-L model with majority voting.