¿Razonamiento o memorización? Resultados poco confiables del aprendizaje por refuerzo debido a la contaminación de datos.
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination
July 14, 2025
Autores: Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang
cs.AI
Resumen
Las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han sido un enfoque de investigación de larga data. Trabajos recientes han mejorado aún más estas capacidades utilizando aprendizaje por refuerzo (RL, por sus siglas en inglés), con muchos métodos nuevos que afirman mejoras significativas con una supervisión externa mínima o nula. Sorprendentemente, algunos estudios incluso sugieren que señales de recompensa aleatorias o incorrectas pueden mejorar el rendimiento en el razonamiento. Sin embargo, estos avances se reportan principalmente en la familia de modelos Qwen2.5 y se evalúan en puntos de referencia conocidos como MATH-500, AMC y AIME, mientras que no logran resultados similares en otros modelos como Llama, lo que justifica una investigación más profunda. Nuestro análisis muestra que, aunque Qwen2.5 alcanza un fuerte rendimiento en razonamiento matemático, su preentrenamiento en corpus web a gran escala lo hace vulnerable a la contaminación de datos en puntos de referencia populares. Como resultado, las conclusiones derivadas de estos puntos de referencia pueden ser poco confiables. Para abordar este problema, introducimos un generador que produce problemas aritméticos completamente sintéticos de longitud y dificultad arbitrarias, generando un conjunto de datos limpio que denominamos RandomCalculation. Utilizando estos conjuntos de datos libres de fugas, demostramos que solo las señales de recompensa precisas mejoran consistentemente el rendimiento, mientras que las señales ruidosas o incorrectas no lo hacen. Abogamos por la evaluación de métodos de RL en puntos de referencia no contaminados y en diversas familias de modelos para garantizar conclusiones confiables.
English
The reasoning capabilities of large language models (LLMs) have been a
longstanding focus of research. Recent works have further enhanced these
capabilities using reinforcement learning (RL), with many new methods claiming
significant improvements with minimal or no external supervision. Surprisingly,
some studies even suggest that random or incorrect reward signals can enhance
reasoning performance. However, these breakthroughs are mostly reported on the
Qwen2.5 model family and evaluated on well-known benchmarks such as MATH-500,
AMC, and AIME, while failing to achieve similar gains on other models like
Llama, which warrants further investigation. Our analysis shows that although
Qwen2.5 achieves strong mathematical reasoning performance, its pretraining on
large-scale web corpora makes it vulnerable to data contamination in popular
benchmarks. As a result, results derived from these benchmarks may be
unreliable. To address this, we introduce a generator that produces fully
synthetic arithmetic problems of arbitrary length and difficulty, yielding a
clean dataset we call RandomCalculation. Using these leakage-free datasets, we
show that only accurate reward signals consistently improve performance, while
noisy or incorrect signals do not. We advocate for evaluating RL methods on
uncontaminated benchmarks and across diverse model families to ensure
trustworthy conclusions.