ChatPaper.aiChatPaper

Miglioramento del fine-tuning di modelli linguistici di grandi dimensioni per la risoluzione di problemi matematici

Improving Large Language Model Fine-tuning for Solving Math Problems

October 16, 2023
Autori: Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co-Reyes, Peter J. Liu
cs.AI

Abstract

Nonostante il loro successo in molti compiti di elaborazione del linguaggio naturale, risolvere problemi matematici rimane una sfida significativa per i grandi modelli linguistici (LLM). Esiste un ampio divario tra le prestazioni pass-at-one e pass-at-N degli LLM nella risoluzione di problemi matematici, suggerendo che gli LLM potrebbero essere vicini a trovare soluzioni corrette, il che motiva la nostra esplorazione di metodi di fine-tuning per sbloccare le prestazioni degli LLM. Utilizzando il complesso dataset MATH, investigiamo tre strategie di fine-tuning: (1) fine-tuning delle soluzioni, in cui addestriamo il modello per generare una soluzione dettagliata per un dato problema matematico; (2) riordinamento dei cluster di soluzioni, in cui l'LLM viene addestrato come verificatore/valutatore di soluzioni per scegliere tra cluster di soluzioni generate; (3) fine-tuning sequenziale multi-task, che integra efficientemente sia la generazione che la valutazione delle soluzioni per migliorare le prestazioni dell'LLM. Con questi metodi, presentiamo uno studio empirico approfondito su una serie di modelli PaLM 2 e scopriamo: (1) La qualità e lo stile delle soluzioni passo-passo utilizzate per il fine-tuning possono avere un impatto significativo sulle prestazioni del modello; (2) Sebbene il riordinamento delle soluzioni e il voto a maggioranza siano entrambi efficaci per migliorare le prestazioni del modello quando usati separatamente, possono anche essere utilizzati insieme per un ulteriore incremento delle prestazioni; (3) Il fine-tuning multi-task che separa sequenzialmente i compiti di generazione e valutazione delle soluzioni può offrire prestazioni migliorate rispetto al baseline di fine-tuning delle soluzioni. Guidati da queste intuizioni, progettiamo una ricetta di fine-tuning che raggiunge circa il 58,8% di accuratezza sul dataset MATH con modelli PaLM 2-L fine-tuned, un miglioramento dell'11,2% rispetto alle prestazioni few-shot del modello pre-addestrato PaLM 2-L con voto a maggioranza.
English
Despite their success in many natural language tasks, solving math problems remains a significant challenge for large language models (LLMs). A large gap exists between LLMs' pass-at-one and pass-at-N performance in solving math problems, suggesting LLMs might be close to finding correct solutions, motivating our exploration of fine-tuning methods to unlock LLMs' performance. Using the challenging MATH dataset, we investigate three fine-tuning strategies: (1) solution fine-tuning, where we fine-tune to generate a detailed solution for a given math problem; (2) solution-cluster re-ranking, where the LLM is fine-tuned as a solution verifier/evaluator to choose among generated candidate solution clusters; (3) multi-task sequential fine-tuning, which integrates both solution generation and evaluation tasks together efficiently to enhance the LLM performance. With these methods, we present a thorough empirical study on a series of PaLM 2 models and find: (1) The quality and style of the step-by-step solutions used for fine-tuning can make a significant impact on the model performance; (2) While solution re-ranking and majority voting are both effective for improving the model performance when used separately, they can also be used together for an even greater performance boost; (3) Multi-task fine-tuning that sequentially separates the solution generation and evaluation tasks can offer improved performance compared with the solution fine-tuning baseline. Guided by these insights, we design a fine-tuning recipe that yields approximately 58.8% accuracy on the MATH dataset with fine-tuned PaLM 2-L models, an 11.2% accuracy improvement over the few-shot performance of pre-trained PaLM 2-L model with majority voting.
PDF71December 14, 2025