MathFusion : Amélioration de la résolution de problèmes mathématiques des LLM grâce à la fusion d'instructions
MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion
March 20, 2025
Auteurs: Qizhi Pei, Lijun Wu, Zhuoshi Pan, Yu Li, Honglin Lin, Chenlin Ming, Xin Gao, Conghui He, Rui Yan
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont montré des progrès impressionnants en matière de raisonnement mathématique. Bien que l'augmentation de données soit prometteuse pour améliorer la capacité à résoudre des problèmes mathématiques, les approches actuelles se limitent principalement à des modifications au niveau des instances—telles que la reformulation ou la génération de variations syntaxiques—qui ne parviennent pas à capturer et à exploiter les structures relationnelles intrinsèques inhérentes aux connaissances mathématiques. Inspirés par les processus d'apprentissage humains, où la compétence mathématique se développe grâce à une exposition systématique à des concepts interconnectés, nous introduisons MathFusion, un cadre novateur qui améliore le raisonnement mathématique grâce à la synthèse d'instructions inter-problèmes. MathFusion met en œuvre cela à travers trois stratégies de fusion : (1) la fusion séquentielle, qui enchaîne des problèmes liés pour modéliser les dépendances de solutions ; (2) la fusion parallèle, qui combine des problèmes analogues pour renforcer la compréhension conceptuelle ; et (3) la fusion conditionnelle, qui crée des problèmes sélectifs conscients du contexte pour améliorer la flexibilité du raisonnement. En appliquant ces stratégies, nous générons un nouveau jeu de données, MathFusionQA, suivi d'un ajustement fin des modèles (DeepSeekMath-7B, Mistral-7B, Llama3-8B) sur celui-ci. Les résultats expérimentaux démontrent que MathFusion obtient des améliorations substantielles en matière de raisonnement mathématique tout en maintenant une haute efficacité des données, augmentant la performance de 18,0 points en précision à travers divers benchmarks tout en nécessitant seulement 45K instructions synthétiques supplémentaires, représentant une amélioration significative par rapport aux approches traditionnelles à instruction unique. Nos jeux de données, modèles et code sont disponibles publiquement à l'adresse https://github.com/QizhiPei/mathfusion.
English
Large Language Models (LLMs) have shown impressive progress in mathematical
reasoning. While data augmentation is promising to enhance mathematical
problem-solving ability, current approaches are predominantly limited to
instance-level modifications-such as rephrasing or generating syntactic
variations-which fail to capture and leverage the intrinsic relational
structures inherent in mathematical knowledge. Inspired by human learning
processes, where mathematical proficiency develops through systematic exposure
to interconnected concepts, we introduce MathFusion, a novel framework that
enhances mathematical reasoning through cross-problem instruction synthesis.
MathFusion implements this through three fusion strategies: (1) sequential
fusion, which chains related problems to model solution dependencies; (2)
parallel fusion, which combines analogous problems to reinforce conceptual
understanding; and (3) conditional fusion, which creates context-aware
selective problems to enhance reasoning flexibility. By applying these
strategies, we generate a new dataset, MathFusionQA, followed by
fine-tuning models (DeepSeekMath-7B, Mistral-7B, Llama3-8B) on it. Experimental
results demonstrate that MathFusion achieves substantial improvements in
mathematical reasoning while maintaining high data efficiency, boosting
performance by 18.0 points in accuracy across diverse benchmarks while
requiring only 45K additional synthetic instructions, representing a
substantial improvement over traditional single-instruction approaches. Our
datasets, models, and code are publicly available at
https://github.com/QizhiPei/mathfusion.Summary
AI-Generated Summary