MATH-Beyond: 기본 모델을 넘어서는 강화 학습을 위한 벤치마크
MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model
October 13, 2025
저자: Prasanna Mayilvahanan, Ricardo Dominguez-Olmedo, Thaddäus Wiedemer, Wieland Brendel
cs.AI
초록
DeepSeek-R1의 등장과 함께, 더 강력한 수학적 추론을 가능하게 하는 새로운 강화학습(RL) 방법들이 등장했습니다. 그러나 오픈소스 생태계를 자세히 살펴보면 중요한 한계가 드러납니다: 충분히 많은 시도(예: pass@1024)를 할 경우, 기존의 많은 기본 모델들이 이미 MATH-500 및 AIME 2024와 같은 널리 사용되는 수학 벤치마크의 거의 모든 문제를 해결하고 있습니다. 이는 LLM 추론 문헌에서 널리 사용되는 RL 미세조정 방법들이 대부분 기존의 해결 방식을 더욱 세밀하게 다듬는 데 그치고, 완전히 새로운 방식을 발견하지는 못한다는 것을 시사합니다. 이러한 세밀화는 RL의 더 넓은 약속, 즉 탐색을 촉진하고 새로운 기술을 습득하는 것과는 대조적입니다. 이 고원을 넘어서기 위해, 우리는 MATH-Beyond(MATH-B)라는 벤치마크를 소개합니다. 이 벤치마크는 대규모 샘플링 예산 하에서도 최대 8B 파라미터의 일반적인 오픈소스 모델들을 의도적으로 무력화하도록 설계되었습니다. 우리의 벤치마크에서 성능을 개선하기 위해서는 반복적인 샘플링에서 기본 모델의 능력을 넘어서는 추론 방식을 학습하는 RL 방법이 필요합니다. 문제들은 DAPO-Math-17K 및 DeepScaleR 데이터셋의 부분집합에서 추출되었기 때문에, 주제적으로는 표준 고등학교 수학과 동일합니다. 우리의 전제를 검증하기 위해, Nemotron-Research-Reasoning-Qwen-1.5B 및 DeepScaleR-1.5B-Preview와 같은 RL 미세조정 모델들은 pass@1024에서 MATH-B에서 낮은 성능을 보이며, 기존 접근 방식들이 더 어려운 사례를 다루는 데 부족함을 보여줍니다. 우리는 MATH-B가 더 깊은 추론 능력을 이끌어내는 탐색 중심의 RL 접근 방식을 촉진하기를 바랍니다. 우리는 MATH-B를 https://huggingface.co/datasets/brendel-group/MATH-Beyond에서 공개합니다.
English
With the advent of DeepSeek-R1, a new wave of reinforcement learning (RL)
methods has emerged that seem to unlock stronger mathematical reasoning.
However, a closer look at the open-source ecosystem reveals a critical
limitation: with sufficiently many draws (e.g., pass@1024), many
existing base models already solve nearly all questions on widely used math
benchmarks such as MATH-500 and AIME 2024. This suggests that the RL
fine-tuning methods prevalent in the LLM reasoning literature largely sharpen
existing solution modes rather than discovering entirely new ones. Such
sharpening stands in contrast to the broader promise of RL: to foster
exploration and to acquire new skills. To move beyond this plateau, we
introduce MATH-Beyond (MATH-B), a benchmark deliberately constructed to defeat
common open-source models of up to 8B parameters even under large sampling
budgets. Improving performance on our benchmark via RL requires methods that
learn to reason in ways that go beyond base model capabilities in repeated
sampling. Since the problems are drawn from subsets of DAPO-Math-17K and
DeepScaleR datasets, they remain topically equivalent to standard high-school
math. Validating our premise, RL fine-tuned models such as
Nemotron-Research-Reasoning-Qwen-1.5B and DeepScaleR-1.5B-Preview perform
poorly on MATH-B at pass@1024, showing how existing approaches fall
short on tackling harder instances. We hope MATH-B will catalyze
exploration-driven RL approaches that elicit deeper reasoning capabilities. We
release MATH-B at https://huggingface.co/datasets/brendel-group/MATH-Beyond.