ChatPaper.aiChatPaper

MATH-Beyond: Um Benchmark para RL Expandir Além do Modelo Base

MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model

October 13, 2025
Autores: Prasanna Mayilvahanan, Ricardo Dominguez-Olmedo, Thaddäus Wiedemer, Wieland Brendel
cs.AI

Resumo

Com o advento do DeepSeek-R1, uma nova onda de métodos de aprendizado por reforço (RL) surgiu, aparentemente desbloqueando um raciocínio matemático mais robusto. No entanto, uma análise mais detalhada do ecossistema de código aberto revela uma limitação crítica: com um número suficiente de tentativas (por exemplo, pass@1024), muitos modelos base existentes já resolvem quase todas as questões em benchmarks de matemática amplamente utilizados, como MATH-500 e AIME 2024. Isso sugere que os métodos de ajuste fino com RL predominantes na literatura de raciocínio em modelos de linguagem (LLM) aprimoram principalmente modos de solução existentes, em vez de descobrir novos. Esse aprimoramento contrasta com a promessa mais ampla do RL: fomentar a exploração e adquirir novas habilidades. Para superar esse platô, introduzimos o MATH-Beyond (MATH-B), um benchmark construído deliberadamente para desafiar modelos de código aberto com até 8 bilhões de parâmetros, mesmo sob grandes orçamentos de amostragem. Melhorar o desempenho em nosso benchmark via RL exige métodos que aprendam a raciocinar de maneiras que vão além das capacidades dos modelos base em amostragens repetidas. Como os problemas são extraídos de subconjuntos dos conjuntos de dados DAPO-Math-17K e DeepScaleR, eles permanecem tematicamente equivalentes à matemática padrão do ensino médio. Validando nossa premissa, modelos ajustados com RL, como Nemotron-Research-Reasoning-Qwen-1.5B e DeepScaleR-1.5B-Preview, têm desempenho ruim no MATH-B em pass@1024, mostrando como as abordagens existentes falham em lidar com instâncias mais difíceis. Esperamos que o MATH-B catalise abordagens de RL orientadas à exploração que eliciem capacidades de raciocínio mais profundas. Disponibilizamos o MATH-B em https://huggingface.co/datasets/brendel-group/MATH-Beyond.
English
With the advent of DeepSeek-R1, a new wave of reinforcement learning (RL) methods has emerged that seem to unlock stronger mathematical reasoning. However, a closer look at the open-source ecosystem reveals a critical limitation: with sufficiently many draws (e.g., pass@1024), many existing base models already solve nearly all questions on widely used math benchmarks such as MATH-500 and AIME 2024. This suggests that the RL fine-tuning methods prevalent in the LLM reasoning literature largely sharpen existing solution modes rather than discovering entirely new ones. Such sharpening stands in contrast to the broader promise of RL: to foster exploration and to acquire new skills. To move beyond this plateau, we introduce MATH-Beyond (MATH-B), a benchmark deliberately constructed to defeat common open-source models of up to 8B parameters even under large sampling budgets. Improving performance on our benchmark via RL requires methods that learn to reason in ways that go beyond base model capabilities in repeated sampling. Since the problems are drawn from subsets of DAPO-Math-17K and DeepScaleR datasets, they remain topically equivalent to standard high-school math. Validating our premise, RL fine-tuned models such as Nemotron-Research-Reasoning-Qwen-1.5B and DeepScaleR-1.5B-Preview perform poorly on MATH-B at pass@1024, showing how existing approaches fall short on tackling harder instances. We hope MATH-B will catalyze exploration-driven RL approaches that elicit deeper reasoning capabilities. We release MATH-B at https://huggingface.co/datasets/brendel-group/MATH-Beyond.
PDF12October 16, 2025