MathFusion: Улучшение решения математических задач в языковых моделях через слияние инструкций

Аннотация

Крупные языковые модели (LLMs) продемонстрировали впечатляющий прогресс в области математического мышления. Хотя расширение данных представляется перспективным для улучшения способности решать математические задачи, текущие подходы в основном ограничиваются модификациями на уровне отдельных примеров — такими как перефразирование или создание синтаксических вариаций, — которые не учитывают и не используют внутренние реляционные структуры, присущие математическим знаниям. Вдохновленные процессами человеческого обучения, где математическая грамотность развивается через систематическое знакомство с взаимосвязанными концепциями, мы представляем MathFusion — новый фреймворк, который улучшает математическое мышление за счет синтеза инструкций между задачами. MathFusion реализует это с помощью трех стратегий слияния: (1) последовательное слияние, которое связывает связанные задачи для моделирования зависимостей решений; (2) параллельное слияние, которое объединяет аналогичные задачи для укрепления концептуального понимания; и (3) условное слияние, которое создает контекстно-зависимые избирательные задачи для повышения гибкости мышления. Применяя эти стратегии, мы создаем новый набор данных MathFusionQA, после чего проводим тонкую настройку моделей (DeepSeekMath-7B, Mistral-7B, Llama3-8B) на нем. Экспериментальные результаты показывают, что MathFusion достигает значительных улучшений в математическом мышлении при сохранении высокой эффективности данных, повышая точность на 18,0 пунктов на различных бенчмарках, при этом требуя всего 45K дополнительных синтетических инструкций, что представляет собой существенное улучшение по сравнению с традиционными подходами с одной инструкцией. Наши наборы данных, модели и код доступны публично по адресу https://github.com/QizhiPei/mathfusion.

English

Large Language Models (LLMs) have shown impressive progress in mathematical reasoning. While data augmentation is promising to enhance mathematical problem-solving ability, current approaches are predominantly limited to instance-level modifications-such as rephrasing or generating syntactic variations-which fail to capture and leverage the intrinsic relational structures inherent in mathematical knowledge. Inspired by human learning processes, where mathematical proficiency develops through systematic exposure to interconnected concepts, we introduce MathFusion, a novel framework that enhances mathematical reasoning through cross-problem instruction synthesis. MathFusion implements this through three fusion strategies: (1) sequential fusion, which chains related problems to model solution dependencies; (2) parallel fusion, which combines analogous problems to reinforce conceptual understanding; and (3) conditional fusion, which creates context-aware selective problems to enhance reasoning flexibility. By applying these strategies, we generate a new dataset, MathFusionQA, followed by fine-tuning models (DeepSeekMath-7B, Mistral-7B, Llama3-8B) on it. Experimental results demonstrate that MathFusion achieves substantial improvements in mathematical reasoning while maintaining high data efficiency, boosting performance by 18.0 points in accuracy across diverse benchmarks while requiring only 45K additional synthetic instructions, representing a substantial improvement over traditional single-instruction approaches. Our datasets, models, and code are publicly available at https://github.com/QizhiPei/mathfusion.

MathFusion: Улучшение решения математических задач в языковых моделях через слияние инструкций

MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion

Аннотация

Support