MathFusion: Улучшение решения математических задач в языковых моделях через слияние инструкций
MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion
March 20, 2025
Авторы: Qizhi Pei, Lijun Wu, Zhuoshi Pan, Yu Li, Honglin Lin, Chenlin Ming, Xin Gao, Conghui He, Rui Yan
cs.AI
Аннотация
Крупные языковые модели (LLMs) продемонстрировали впечатляющий прогресс в области математического мышления. Хотя расширение данных представляется перспективным для улучшения способности решать математические задачи, текущие подходы в основном ограничиваются модификациями на уровне отдельных примеров — такими как перефразирование или создание синтаксических вариаций, — которые не учитывают и не используют внутренние реляционные структуры, присущие математическим знаниям. Вдохновленные процессами человеческого обучения, где математическая грамотность развивается через систематическое знакомство с взаимосвязанными концепциями, мы представляем MathFusion — новый фреймворк, который улучшает математическое мышление за счет синтеза инструкций между задачами. MathFusion реализует это с помощью трех стратегий слияния: (1) последовательное слияние, которое связывает связанные задачи для моделирования зависимостей решений; (2) параллельное слияние, которое объединяет аналогичные задачи для укрепления концептуального понимания; и (3) условное слияние, которое создает контекстно-зависимые избирательные задачи для повышения гибкости мышления. Применяя эти стратегии, мы создаем новый набор данных MathFusionQA, после чего проводим тонкую настройку моделей (DeepSeekMath-7B, Mistral-7B, Llama3-8B) на нем. Экспериментальные результаты показывают, что MathFusion достигает значительных улучшений в математическом мышлении при сохранении высокой эффективности данных, повышая точность на 18,0 пунктов на различных бенчмарках, при этом требуя всего 45K дополнительных синтетических инструкций, что представляет собой существенное улучшение по сравнению с традиционными подходами с одной инструкцией. Наши наборы данных, модели и код доступны публично по адресу https://github.com/QizhiPei/mathfusion.
English
Large Language Models (LLMs) have shown impressive progress in mathematical
reasoning. While data augmentation is promising to enhance mathematical
problem-solving ability, current approaches are predominantly limited to
instance-level modifications-such as rephrasing or generating syntactic
variations-which fail to capture and leverage the intrinsic relational
structures inherent in mathematical knowledge. Inspired by human learning
processes, where mathematical proficiency develops through systematic exposure
to interconnected concepts, we introduce MathFusion, a novel framework that
enhances mathematical reasoning through cross-problem instruction synthesis.
MathFusion implements this through three fusion strategies: (1) sequential
fusion, which chains related problems to model solution dependencies; (2)
parallel fusion, which combines analogous problems to reinforce conceptual
understanding; and (3) conditional fusion, which creates context-aware
selective problems to enhance reasoning flexibility. By applying these
strategies, we generate a new dataset, MathFusionQA, followed by
fine-tuning models (DeepSeekMath-7B, Mistral-7B, Llama3-8B) on it. Experimental
results demonstrate that MathFusion achieves substantial improvements in
mathematical reasoning while maintaining high data efficiency, boosting
performance by 18.0 points in accuracy across diverse benchmarks while
requiring only 45K additional synthetic instructions, representing a
substantial improvement over traditional single-instruction approaches. Our
datasets, models, and code are publicly available at
https://github.com/QizhiPei/mathfusion.Summary
AI-Generated Summary