Miglioramento del fine-tuning di modelli linguistici di grandi dimensioni per la risoluzione di problemi matematici
Improving Large Language Model Fine-tuning for Solving Math Problems
October 16, 2023
Autori: Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co-Reyes, Peter J. Liu
cs.AI
Abstract
Nonostante il loro successo in molti compiti di elaborazione del linguaggio naturale, risolvere problemi matematici rimane una sfida significativa per i grandi modelli linguistici (LLM). Esiste un ampio divario tra le prestazioni pass-at-one e pass-at-N degli LLM nella risoluzione di problemi matematici, suggerendo che gli LLM potrebbero essere vicini a trovare soluzioni corrette, il che motiva la nostra esplorazione di metodi di fine-tuning per sbloccare le prestazioni degli LLM. Utilizzando il complesso dataset MATH, investigiamo tre strategie di fine-tuning: (1) fine-tuning delle soluzioni, in cui addestriamo il modello per generare una soluzione dettagliata per un dato problema matematico; (2) riordinamento dei cluster di soluzioni, in cui l'LLM viene addestrato come verificatore/valutatore di soluzioni per scegliere tra cluster di soluzioni generate; (3) fine-tuning sequenziale multi-task, che integra efficientemente sia la generazione che la valutazione delle soluzioni per migliorare le prestazioni dell'LLM. Con questi metodi, presentiamo uno studio empirico approfondito su una serie di modelli PaLM 2 e scopriamo: (1) La qualità e lo stile delle soluzioni passo-passo utilizzate per il fine-tuning possono avere un impatto significativo sulle prestazioni del modello; (2) Sebbene il riordinamento delle soluzioni e il voto a maggioranza siano entrambi efficaci per migliorare le prestazioni del modello quando usati separatamente, possono anche essere utilizzati insieme per un ulteriore incremento delle prestazioni; (3) Il fine-tuning multi-task che separa sequenzialmente i compiti di generazione e valutazione delle soluzioni può offrire prestazioni migliorate rispetto al baseline di fine-tuning delle soluzioni. Guidati da queste intuizioni, progettiamo una ricetta di fine-tuning che raggiunge circa il 58,8% di accuratezza sul dataset MATH con modelli PaLM 2-L fine-tuned, un miglioramento dell'11,2% rispetto alle prestazioni few-shot del modello pre-addestrato PaLM 2-L con voto a maggioranza.
English
Despite their success in many natural language tasks, solving math problems
remains a significant challenge for large language models (LLMs). A large gap
exists between LLMs' pass-at-one and pass-at-N performance in solving math
problems, suggesting LLMs might be close to finding correct solutions,
motivating our exploration of fine-tuning methods to unlock LLMs' performance.
Using the challenging MATH dataset, we investigate three fine-tuning
strategies: (1) solution fine-tuning, where we fine-tune to generate a detailed
solution for a given math problem; (2) solution-cluster re-ranking, where the
LLM is fine-tuned as a solution verifier/evaluator to choose among generated
candidate solution clusters; (3) multi-task sequential fine-tuning, which
integrates both solution generation and evaluation tasks together efficiently
to enhance the LLM performance. With these methods, we present a thorough
empirical study on a series of PaLM 2 models and find: (1) The quality and
style of the step-by-step solutions used for fine-tuning can make a significant
impact on the model performance; (2) While solution re-ranking and majority
voting are both effective for improving the model performance when used
separately, they can also be used together for an even greater performance
boost; (3) Multi-task fine-tuning that sequentially separates the solution
generation and evaluation tasks can offer improved performance compared with
the solution fine-tuning baseline. Guided by these insights, we design a
fine-tuning recipe that yields approximately 58.8% accuracy on the MATH dataset
with fine-tuned PaLM 2-L models, an 11.2% accuracy improvement over the
few-shot performance of pre-trained PaLM 2-L model with majority voting.