ChatPaper.aiChatPaper

Ragionamento o Memorizzazione? Risultati Inaffidabili dell'Apprendimento per Rinforzo Causati dalla Contaminazione dei Dati

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

July 14, 2025
Autori: Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang
cs.AI

Abstract

Le capacità di ragionamento dei grandi modelli linguistici (LLM) sono da tempo un focus centrale della ricerca. Recenti lavori hanno ulteriormente migliorato queste capacità utilizzando l'apprendimento per rinforzo (RL), con molti nuovi metodi che vantano miglioramenti significativi con una supervisione esterna minima o assente. Sorprendentemente, alcuni studi suggeriscono persino che segnali di ricompensa casuali o errati possano migliorare le prestazioni di ragionamento. Tuttavia, queste scoperte sono principalmente riportate sulla famiglia di modelli Qwen2.5 e valutate su benchmark noti come MATH-500, AMC e AIME, mentre non riescono a ottenere risultati simili su altri modelli come Llama, il che richiede ulteriori indagini. La nostra analisi mostra che, sebbene Qwen2.5 raggiunga prestazioni solide nel ragionamento matematico, il suo pre-addestramento su corpora web su larga scala lo rende vulnerabile alla contaminazione dei dati nei benchmark popolari. Di conseguenza, i risultati derivati da questi benchmark potrebbero essere inaffidabili. Per affrontare questo problema, introduciamo un generatore che produce problemi aritmetici completamente sintetici di lunghezza e difficoltà arbitraria, creando un dataset pulito che chiamiamo RandomCalculation. Utilizzando questi dataset privi di perdite, dimostriamo che solo segnali di ricompensa accurati migliorano costantemente le prestazioni, mentre segnali rumorosi o errati non lo fanno. Sosteniamo la valutazione dei metodi RL su benchmark non contaminati e su diverse famiglie di modelli per garantire conclusioni affidabili.
English
The reasoning capabilities of large language models (LLMs) have been a longstanding focus of research. Recent works have further enhanced these capabilities using reinforcement learning (RL), with many new methods claiming significant improvements with minimal or no external supervision. Surprisingly, some studies even suggest that random or incorrect reward signals can enhance reasoning performance. However, these breakthroughs are mostly reported on the Qwen2.5 model family and evaluated on well-known benchmarks such as MATH-500, AMC, and AIME, while failing to achieve similar gains on other models like Llama, which warrants further investigation. Our analysis shows that although Qwen2.5 achieves strong mathematical reasoning performance, its pretraining on large-scale web corpora makes it vulnerable to data contamination in popular benchmarks. As a result, results derived from these benchmarks may be unreliable. To address this, we introduce a generator that produces fully synthetic arithmetic problems of arbitrary length and difficulty, yielding a clean dataset we call RandomCalculation. Using these leakage-free datasets, we show that only accurate reward signals consistently improve performance, while noisy or incorrect signals do not. We advocate for evaluating RL methods on uncontaminated benchmarks and across diverse model families to ensure trustworthy conclusions.
PDF833July 15, 2025