Mejora del ajuste fino de modelos de lenguaje extenso para la resolución de problemas matemáticos
Improving Large Language Model Fine-tuning for Solving Math Problems
October 16, 2023
Autores: Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co-Reyes, Peter J. Liu
cs.AI
Resumen
A pesar de su éxito en muchas tareas de procesamiento de lenguaje natural, resolver problemas matemáticos sigue siendo un desafío significativo para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Existe una brecha considerable entre el rendimiento "pass-at-one" y "pass-at-N" de los LLMs al resolver problemas matemáticos, lo que sugiere que estos modelos podrían estar cerca de encontrar soluciones correctas, lo que motiva nuestra exploración de métodos de ajuste fino para desbloquear su rendimiento. Utilizando el desafiante conjunto de datos MATH, investigamos tres estrategias de ajuste fino: (1) ajuste fino de soluciones, donde ajustamos el modelo para generar una solución detallada a un problema matemático dado; (2) reordenación de clústeres de soluciones, donde el LLM se ajusta como un verificador/evaluador de soluciones para elegir entre clústeres de soluciones generadas; (3) ajuste fino secuencial multitarea, que integra eficientemente tanto la generación de soluciones como las tareas de evaluación para mejorar el rendimiento del LLM. Con estos métodos, presentamos un estudio empírico exhaustivo en una serie de modelos PaLM 2 y encontramos: (1) La calidad y el estilo de las soluciones paso a paso utilizadas para el ajuste fino pueden tener un impacto significativo en el rendimiento del modelo; (2) Si bien el reordenamiento de soluciones y la votación por mayoría son efectivos para mejorar el rendimiento del modelo cuando se usan por separado, también pueden usarse juntos para un mayor impulso en el rendimiento; (3) El ajuste fino multitarea que separa secuencialmente las tareas de generación y evaluación de soluciones puede ofrecer un rendimiento mejorado en comparación con la línea base de ajuste fino de soluciones. Guiados por estas observaciones, diseñamos una receta de ajuste fino que logra aproximadamente un 58.8% de precisión en el conjunto de datos MATH con modelos PaLM 2-L ajustados, una mejora del 11.2% en precisión sobre el rendimiento "few-shot" del modelo PaLM 2-L preentrenado con votación por mayoría.
English
Despite their success in many natural language tasks, solving math problems
remains a significant challenge for large language models (LLMs). A large gap
exists between LLMs' pass-at-one and pass-at-N performance in solving math
problems, suggesting LLMs might be close to finding correct solutions,
motivating our exploration of fine-tuning methods to unlock LLMs' performance.
Using the challenging MATH dataset, we investigate three fine-tuning
strategies: (1) solution fine-tuning, where we fine-tune to generate a detailed
solution for a given math problem; (2) solution-cluster re-ranking, where the
LLM is fine-tuned as a solution verifier/evaluator to choose among generated
candidate solution clusters; (3) multi-task sequential fine-tuning, which
integrates both solution generation and evaluation tasks together efficiently
to enhance the LLM performance. With these methods, we present a thorough
empirical study on a series of PaLM 2 models and find: (1) The quality and
style of the step-by-step solutions used for fine-tuning can make a significant
impact on the model performance; (2) While solution re-ranking and majority
voting are both effective for improving the model performance when used
separately, they can also be used together for an even greater performance
boost; (3) Multi-task fine-tuning that sequentially separates the solution
generation and evaluation tasks can offer improved performance compared with
the solution fine-tuning baseline. Guided by these insights, we design a
fine-tuning recipe that yields approximately 58.8% accuracy on the MATH dataset
with fine-tuned PaLM 2-L models, an 11.2% accuracy improvement over the
few-shot performance of pre-trained PaLM 2-L model with majority voting.