Amélioration du fine-tuning des grands modèles de langage pour la résolution de problèmes mathématiques
Improving Large Language Model Fine-tuning for Solving Math Problems
October 16, 2023
Auteurs: Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co-Reyes, Peter J. Liu
cs.AI
Résumé
Malgré leur succès dans de nombreuses tâches de traitement du langage naturel, la résolution de problèmes mathématiques reste un défi majeur pour les grands modèles de langage (LLMs). Un écart important existe entre les performances "pass-at-one" et "pass-at-N" des LLMs dans la résolution de problèmes mathématiques, suggérant que les LLMs pourraient être proches de trouver des solutions correctes, ce qui motive notre exploration de méthodes de fine-tuning pour débloquer leur potentiel. En utilisant le jeu de données MATH, réputé pour sa difficulté, nous étudions trois stratégies de fine-tuning : (1) le fine-tuning de solutions, où nous affinons le modèle pour générer une solution détaillée à un problème mathématique donné ; (2) le ré-ordonnancement de clusters de solutions, où le LLM est affiné pour agir comme un vérificateur/évaluateur de solutions afin de choisir parmi des clusters de solutions générées ; (3) le fine-tuning multitâche séquentiel, qui intègre efficacement les tâches de génération et d'évaluation de solutions pour améliorer les performances du LLM. Grâce à ces méthodes, nous menons une étude empirique approfondie sur une série de modèles PaLM 2 et constatons : (1) La qualité et le style des solutions étape par étape utilisées pour le fine-tuning peuvent avoir un impact significatif sur les performances du modèle ; (2) Bien que le ré-ordonnancement des solutions et le vote majoritaire soient tous deux efficaces pour améliorer les performances du modèle lorsqu'ils sont utilisés séparément, ils peuvent également être combinés pour un gain de performance encore plus important ; (3) Le fine-tuning multitâche qui séquence les tâches de génération et d'évaluation de solutions peut offrir de meilleures performances par rapport au fine-tuning de solutions de base. Guidés par ces observations, nous concevons une recette de fine-tuning qui atteint environ 58,8 % de précision sur le jeu de données MATH avec des modèles PaLM 2-L affinés, soit une amélioration de 11,2 % par rapport aux performances en few-shot du modèle PaLM 2-L pré-entraîné avec vote majoritaire.
English
Despite their success in many natural language tasks, solving math problems
remains a significant challenge for large language models (LLMs). A large gap
exists between LLMs' pass-at-one and pass-at-N performance in solving math
problems, suggesting LLMs might be close to finding correct solutions,
motivating our exploration of fine-tuning methods to unlock LLMs' performance.
Using the challenging MATH dataset, we investigate three fine-tuning
strategies: (1) solution fine-tuning, where we fine-tune to generate a detailed
solution for a given math problem; (2) solution-cluster re-ranking, where the
LLM is fine-tuned as a solution verifier/evaluator to choose among generated
candidate solution clusters; (3) multi-task sequential fine-tuning, which
integrates both solution generation and evaluation tasks together efficiently
to enhance the LLM performance. With these methods, we present a thorough
empirical study on a series of PaLM 2 models and find: (1) The quality and
style of the step-by-step solutions used for fine-tuning can make a significant
impact on the model performance; (2) While solution re-ranking and majority
voting are both effective for improving the model performance when used
separately, they can also be used together for an even greater performance
boost; (3) Multi-task fine-tuning that sequentially separates the solution
generation and evaluation tasks can offer improved performance compared with
the solution fine-tuning baseline. Guided by these insights, we design a
fine-tuning recipe that yields approximately 58.8% accuracy on the MATH dataset
with fine-tuned PaLM 2-L models, an 11.2% accuracy improvement over the
few-shot performance of pre-trained PaLM 2-L model with majority voting.