Verbesserung der Feinabstimmung großer Sprachmodelle zur Lösung mathematischer Probleme
Improving Large Language Model Fine-tuning for Solving Math Problems
October 16, 2023
Autoren: Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co-Reyes, Peter J. Liu
cs.AI
Zusammenfassung
Trotz ihrer Erfolge in vielen natürlichen Sprachaufgaben bleibt die Lösung mathematischer Probleme eine erhebliche Herausforderung für große Sprachmodelle (LLMs). Es besteht eine große Lücke zwischen der „Pass-at-One“- und der „Pass-at-N“-Leistung von LLMs bei der Lösung mathematischer Probleme, was darauf hindeutet, dass LLMs nahe daran sein könnten, korrekte Lösungen zu finden. Dies motiviert unsere Untersuchung von Feinabstimmungsmethoden, um die Leistung von LLMs zu verbessern. Unter Verwendung des anspruchsvollen MATH-Datensatzes untersuchen wir drei Feinabstimmungsstrategien: (1) Lösungsfeinabstimmung, bei der wir das Modell darauf abstimmen, eine detaillierte Lösung für ein gegebenes mathematisches Problem zu generieren; (2) Lösungscluster-Neubewertung, bei der das LLM als Lösungsprüfer/-bewerter feinabgestimmt wird, um zwischen generierten Kandidatenlösungsclustern zu wählen; (3) Multitask-sequenzielle Feinabstimmung, die sowohl die Lösungsgenerierung als auch die Bewertungsaufgaben effizient integriert, um die Leistung des LLMs zu steigern. Mit diesen Methoden präsentieren wir eine umfassende empirische Studie an einer Reihe von PaLM-2-Modellen und finden: (1) Die Qualität und der Stil der schrittweisen Lösungen, die für die Feinabstimmung verwendet werden, können einen erheblichen Einfluss auf die Modellleistung haben; (2) Während die Neubewertung von Lösungen und die Mehrheitsabstimmung beide effektiv sind, um die Modellleistung zu verbessern, wenn sie separat verwendet werden, können sie auch zusammen für eine noch größere Leistungssteigerung eingesetzt werden; (3) Multitask-Feinabstimmung, die die Lösungsgenerierung und die Bewertungsaufgaben sequenziell trennt, kann eine verbesserte Leistung im Vergleich zur Lösungsfeinabstimmungs-Baseline bieten. Auf der Grundlage dieser Erkenntnisse entwickeln wir ein Feinabstimmungsrezept, das eine Genauigkeit von etwa 58,8 % auf dem MATH-Datensatz mit feinabgestimmten PaLM-2-L-Modellen erreicht, was einer Verbesserung von 11,2 % gegenüber der Few-Shot-Leistung des vortrainierten PaLM-2-L-Modells mit Mehrheitsabstimmung entspricht.
English
Despite their success in many natural language tasks, solving math problems
remains a significant challenge for large language models (LLMs). A large gap
exists between LLMs' pass-at-one and pass-at-N performance in solving math
problems, suggesting LLMs might be close to finding correct solutions,
motivating our exploration of fine-tuning methods to unlock LLMs' performance.
Using the challenging MATH dataset, we investigate three fine-tuning
strategies: (1) solution fine-tuning, where we fine-tune to generate a detailed
solution for a given math problem; (2) solution-cluster re-ranking, where the
LLM is fine-tuned as a solution verifier/evaluator to choose among generated
candidate solution clusters; (3) multi-task sequential fine-tuning, which
integrates both solution generation and evaluation tasks together efficiently
to enhance the LLM performance. With these methods, we present a thorough
empirical study on a series of PaLM 2 models and find: (1) The quality and
style of the step-by-step solutions used for fine-tuning can make a significant
impact on the model performance; (2) While solution re-ranking and majority
voting are both effective for improving the model performance when used
separately, they can also be used together for an even greater performance
boost; (3) Multi-task fine-tuning that sequentially separates the solution
generation and evaluation tasks can offer improved performance compared with
the solution fine-tuning baseline. Guided by these insights, we design a
fine-tuning recipe that yields approximately 58.8% accuracy on the MATH dataset
with fine-tuned PaLM 2-L models, an 11.2% accuracy improvement over the
few-shot performance of pre-trained PaLM 2-L model with majority voting.