Miglioramento del fine-tuning di modelli linguistici di grandi dimensioni per la risoluzione di problemi matematici

Abstract

Nonostante il loro successo in molti compiti di elaborazione del linguaggio naturale, risolvere problemi matematici rimane una sfida significativa per i grandi modelli linguistici (LLM). Esiste un ampio divario tra le prestazioni pass-at-one e pass-at-N degli LLM nella risoluzione di problemi matematici, suggerendo che gli LLM potrebbero essere vicini a trovare soluzioni corrette, il che motiva la nostra esplorazione di metodi di fine-tuning per sbloccare le prestazioni degli LLM. Utilizzando il complesso dataset MATH, investigiamo tre strategie di fine-tuning: (1) fine-tuning delle soluzioni, in cui addestriamo il modello per generare una soluzione dettagliata per un dato problema matematico; (2) riordinamento dei cluster di soluzioni, in cui l'LLM viene addestrato come verificatore/valutatore di soluzioni per scegliere tra cluster di soluzioni generate; (3) fine-tuning sequenziale multi-task, che integra efficientemente sia la generazione che la valutazione delle soluzioni per migliorare le prestazioni dell'LLM. Con questi metodi, presentiamo uno studio empirico approfondito su una serie di modelli PaLM 2 e scopriamo: (1) La qualità e lo stile delle soluzioni passo-passo utilizzate per il fine-tuning possono avere un impatto significativo sulle prestazioni del modello; (2) Sebbene il riordinamento delle soluzioni e il voto a maggioranza siano entrambi efficaci per migliorare le prestazioni del modello quando usati separatamente, possono anche essere utilizzati insieme per un ulteriore incremento delle prestazioni; (3) Il fine-tuning multi-task che separa sequenzialmente i compiti di generazione e valutazione delle soluzioni può offrire prestazioni migliorate rispetto al baseline di fine-tuning delle soluzioni. Guidati da queste intuizioni, progettiamo una ricetta di fine-tuning che raggiunge circa il 58,8% di accuratezza sul dataset MATH con modelli PaLM 2-L fine-tuned, un miglioramento dell'11,2% rispetto alle prestazioni few-shot del modello pre-addestrato PaLM 2-L con voto a maggioranza.

English

Despite their success in many natural language tasks, solving math problems remains a significant challenge for large language models (LLMs). A large gap exists between LLMs' pass-at-one and pass-at-N performance in solving math problems, suggesting LLMs might be close to finding correct solutions, motivating our exploration of fine-tuning methods to unlock LLMs' performance. Using the challenging MATH dataset, we investigate three fine-tuning strategies: (1) solution fine-tuning, where we fine-tune to generate a detailed solution for a given math problem; (2) solution-cluster re-ranking, where the LLM is fine-tuned as a solution verifier/evaluator to choose among generated candidate solution clusters; (3) multi-task sequential fine-tuning, which integrates both solution generation and evaluation tasks together efficiently to enhance the LLM performance. With these methods, we present a thorough empirical study on a series of PaLM 2 models and find: (1) The quality and style of the step-by-step solutions used for fine-tuning can make a significant impact on the model performance; (2) While solution re-ranking and majority voting are both effective for improving the model performance when used separately, they can also be used together for an even greater performance boost; (3) Multi-task fine-tuning that sequentially separates the solution generation and evaluation tasks can offer improved performance compared with the solution fine-tuning baseline. Guided by these insights, we design a fine-tuning recipe that yields approximately 58.8% accuracy on the MATH dataset with fine-tuned PaLM 2-L models, an 11.2% accuracy improvement over the few-shot performance of pre-trained PaLM 2-L model with majority voting.

Miglioramento del fine-tuning di modelli linguistici di grandi dimensioni per la risoluzione di problemi matematici

Improving Large Language Model Fine-tuning for Solving Math Problems

Abstract

Support