Raciocínio ou Memorização? Resultados Não Confiáveis de Aprendizado por Reforço Devido à Contaminação de Dados
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination
July 14, 2025
Autores: Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang
cs.AI
Resumo
As capacidades de raciocínio dos grandes modelos de linguagem (LLMs) têm sido um foco de pesquisa de longa data. Trabalhos recentes aprimoraram ainda mais essas capacidades utilizando aprendizado por reforço (RL), com muitos novos métodos alegando melhorias significativas com supervisão externa mínima ou inexistente. Surpreendentemente, alguns estudos sugerem até que sinais de recompensa aleatórios ou incorretos podem melhorar o desempenho de raciocínio. No entanto, esses avanços são principalmente relatados na família de modelos Qwen2.5 e avaliados em benchmarks conhecidos, como MATH-500, AMC e AIME, enquanto falham em alcançar ganhos semelhantes em outros modelos, como Llama, o que justifica uma investigação mais aprofundada. Nossa análise mostra que, embora o Qwen2.5 alcance um forte desempenho em raciocínio matemático, seu pré-treinamento em grandes corpora da web o torna vulnerável à contaminação de dados em benchmarks populares. Como resultado, os resultados derivados desses benchmarks podem ser pouco confiáveis. Para resolver isso, introduzimos um gerador que produz problemas aritméticos totalmente sintéticos de comprimento e dificuldade arbitrários, gerando um conjunto de dados limpo que chamamos de RandomCalculation. Usando esses conjuntos de dados livres de vazamentos, mostramos que apenas sinais de recompensa precisos melhoram consistentemente o desempenho, enquanto sinais ruidosos ou incorretos não o fazem. Defendemos a avaliação de métodos RL em benchmarks não contaminados e em diversas famílias de modelos para garantir conclusões confiáveis.
English
The reasoning capabilities of large language models (LLMs) have been a
longstanding focus of research. Recent works have further enhanced these
capabilities using reinforcement learning (RL), with many new methods claiming
significant improvements with minimal or no external supervision. Surprisingly,
some studies even suggest that random or incorrect reward signals can enhance
reasoning performance. However, these breakthroughs are mostly reported on the
Qwen2.5 model family and evaluated on well-known benchmarks such as MATH-500,
AMC, and AIME, while failing to achieve similar gains on other models like
Llama, which warrants further investigation. Our analysis shows that although
Qwen2.5 achieves strong mathematical reasoning performance, its pretraining on
large-scale web corpora makes it vulnerable to data contamination in popular
benchmarks. As a result, results derived from these benchmarks may be
unreliable. To address this, we introduce a generator that produces fully
synthetic arithmetic problems of arbitrary length and difficulty, yielding a
clean dataset we call RandomCalculation. Using these leakage-free datasets, we
show that only accurate reward signals consistently improve performance, while
noisy or incorrect signals do not. We advocate for evaluating RL methods on
uncontaminated benchmarks and across diverse model families to ensure
trustworthy conclusions.