ChatPaper.aiChatPaper

SAND-Math: 대형 언어 모델을 활용한 신규, 고난도 및 유용한 수학 문제 및 해답 생성

SAND-Math: Using LLMs to Generate Novel, Difficult and Useful Mathematics Questions and Answers

July 28, 2025
저자: Chaitanya Manem, Pratik Prabhanjan Brahma, Prakamya Mishra, Zicheng Liu, Emad Barsoum
cs.AI

초록

정교한 수학적 추론이 가능한 대형 언어 모델(LLMs)에 대한 산업 전반의 수요가 증가하고 있다. 그러나 성능이 우수한 수학적 LLMs의 개발은 어렵고 새로운 훈련 데이터의 부족으로 인해 심각한 병목 현상을 겪고 있다. 본 연구에서는 이러한 문제를 해결하기 위해 SAND-Math(Synthetic Augmented Novel and Difficult Mathematics problems and solutions) 파이프라인을 소개한다. 이 파이프라인은 먼저 고품질의 문제를 처음부터 생성한 후, 새로운 Difficulty Hiking 단계를 통해 문제의 복잡성을 체계적으로 높이는 방식으로 구성된다. 우리는 이 접근법의 효과를 두 가지 주요 결과를 통해 입증한다. 첫째, 강력한 베이스라인에 SAND-Math 데이터를 추가하면 성능이 크게 향상되어, AIME25 벤치마크에서 차기 최고의 합성 데이터셋보다 최대 17.85 포인트의 절대적 성능 향상을 달성한다. 둘째, 전용 절제 연구에서 우리의 Difficulty Hiking 과정이 매우 효과적임을 보여준다: 평균 문제 난이도를 5.02에서 5.98로 증가시킴으로써, 이 단계는 AIME25 성능을 46.38%에서 49.23%로 끌어올린다. 전체 생성 파이프라인, 최종 데이터셋, 그리고 미세 조정된 모델은 더 능력 있고 효율적인 수학적 추론 LLMs를 구축하기 위한 실용적이고 확장 가능한 툴킷을 형성한다. SAND-Math 데이터셋은 다음 링크에서 공개된다: https://huggingface.co/datasets/amd/SAND-MATH{https://huggingface.co/datasets/amd/SAND-MATH}
English
The demand for Large Language Models (LLMs) capable of sophisticated mathematical reasoning is growing across industries. However, the development of performant mathematical LLMs is critically bottlenecked by the scarcity of difficult, novel training data. We introduce SAND-Math (Synthetic Augmented Novel and Difficult Mathematics problems and solutions), a pipeline that addresses this by first generating high-quality problems from scratch and then systematically elevating their complexity via a new Difficulty Hiking step. We demonstrate the effectiveness of our approach through two key findings. First, augmenting a strong baseline with SAND-Math data significantly boosts performance, outperforming the next-best synthetic dataset by uparrow 17.85 absolute points on the AIME25 benchmark. Second, in a dedicated ablation study, we show our Difficulty Hiking process is highly effective: by increasing average problem difficulty from 5.02 to 5.98, this step lifts AIME25 performance from 46.38\% to 49.23\%. The full generation pipeline, final dataset, and a fine-tuned model form a practical and scalable toolkit for building more capable and efficient mathematical reasoning LLMs. SAND-Math dataset is released here: https://huggingface.co/datasets/amd/SAND-MATH{https://huggingface.co/datasets/amd/SAND-MATH}
PDF32July 29, 2025