Улучшение тонкой настройки больших языковых моделей для решения математических задач

Аннотация

Несмотря на успехи в решении многих задач обработки естественного языка, решение математических задач остается серьезным вызовом для крупных языковых моделей (LLM). Существует значительный разрыв между показателями "pass-at-one" и "pass-at-N" в решении математических задач, что указывает на то, что LLM могут быть близки к нахождению правильных решений, что мотивирует наше исследование методов тонкой настройки для раскрытия их потенциала. Используя сложный набор данных MATH, мы исследуем три стратегии тонкой настройки: (1) тонкая настройка на решения, где модель обучается генерировать подробное решение для заданной математической задачи; (2) переранжирование кластеров решений, где LLM настраивается как верификатор/оценщик для выбора среди сгенерированных кандидатов решений; (3) многозадачная последовательная тонкая настройка, которая эффективно объединяет задачи генерации и оценки решений для повышения производительности модели. С помощью этих методов мы проводим всестороннее эмпирическое исследование на серии моделей PaLM 2 и обнаруживаем: (1) Качество и стиль пошаговых решений, используемых для тонкой настройки, могут существенно влиять на производительность модели; (2) Хотя переранжирование решений и мажоритарное голосование эффективны для улучшения производительности модели по отдельности, их совместное использование дает еще больший прирост; (3) Многозадачная тонкая настройка, которая последовательно разделяет задачи генерации и оценки решений, может предложить улучшенную производительность по сравнению с базовой тонкой настройкой на решения. Руководствуясь этими выводами, мы разрабатываем рецепт тонкой настройки, который обеспечивает точность около 58,8% на наборе данных MATH для настроенных моделей PaLM 2-L, что на 11,2% выше точности предварительно обученной модели PaLM 2-L с мажоритарным голосованием в режиме few-shot.

English

Despite their success in many natural language tasks, solving math problems remains a significant challenge for large language models (LLMs). A large gap exists between LLMs' pass-at-one and pass-at-N performance in solving math problems, suggesting LLMs might be close to finding correct solutions, motivating our exploration of fine-tuning methods to unlock LLMs' performance. Using the challenging MATH dataset, we investigate three fine-tuning strategies: (1) solution fine-tuning, where we fine-tune to generate a detailed solution for a given math problem; (2) solution-cluster re-ranking, where the LLM is fine-tuned as a solution verifier/evaluator to choose among generated candidate solution clusters; (3) multi-task sequential fine-tuning, which integrates both solution generation and evaluation tasks together efficiently to enhance the LLM performance. With these methods, we present a thorough empirical study on a series of PaLM 2 models and find: (1) The quality and style of the step-by-step solutions used for fine-tuning can make a significant impact on the model performance; (2) While solution re-ranking and majority voting are both effective for improving the model performance when used separately, they can also be used together for an even greater performance boost; (3) Multi-task fine-tuning that sequentially separates the solution generation and evaluation tasks can offer improved performance compared with the solution fine-tuning baseline. Guided by these insights, we design a fine-tuning recipe that yields approximately 58.8% accuracy on the MATH dataset with fine-tuned PaLM 2-L models, an 11.2% accuracy improvement over the few-shot performance of pre-trained PaLM 2-L model with majority voting.

Улучшение тонкой настройки больших языковых моделей для решения математических задач

Improving Large Language Model Fine-tuning for Solving Math Problems

Аннотация

Support