ChatPaper.aiChatPaper

Denken oder Auswendiglernen? Unzuverlässige Ergebnisse von Reinforcement Learning aufgrund von Datenkontamination

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

July 14, 2025
papers.authors: Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang
cs.AI

papers.abstract

Die Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Schlussfolgern sind seit langem ein zentraler Forschungsschwerpunkt. Jüngste Arbeiten haben diese Fähigkeiten durch den Einsatz von Reinforcement Learning (RL) weiter verbessert, wobei viele neue Methoden signifikante Fortschritte mit minimaler oder ohne externe Überwachung beanspruchen. Überraschenderweise deuten einige Studien sogar darauf hin, dass zufällige oder falsche Belohnungssignale die Schlussfolgerungsleistung steigern können. Diese Durchbrüche wurden jedoch hauptsächlich für die Qwen2.5-Modellfamilie berichtet und auf bekannten Benchmarks wie MATH-500, AMC und AIME evaluiert, während ähnliche Erfolge bei anderen Modellen wie Llama ausblieben, was weitere Untersuchungen rechtfertigt. Unsere Analyse zeigt, dass Qwen2.5 zwar eine starke mathematische Schlussfolgerungsleistung erzielt, sein Pretraining auf umfangreichen Webkorpora es jedoch anfällig für Datenkontamination in populären Benchmarks macht. Folglich können die aus diesen Benchmarks abgeleiteten Ergebnisse unzuverlässig sein. Um dies zu adressieren, stellen wir einen Generator vor, der vollständig synthetische arithmetische Probleme beliebiger Länge und Schwierigkeit erzeugt, wodurch ein sauberer Datensatz entsteht, den wir RandomCalculation nennen. Mit diesen kontaminationsfreien Datensätzen zeigen wir, dass nur präzise Belohnungssignale die Leistung konsistent verbessern, während verrauschte oder falsche Signale dies nicht tun. Wir plädieren dafür, RL-Methoden auf unkontaminierten Benchmarks und über diverse Modellfamilien hinweg zu evaluieren, um vertrauenswürdige Schlussfolgerungen zu gewährleisten.
English
The reasoning capabilities of large language models (LLMs) have been a longstanding focus of research. Recent works have further enhanced these capabilities using reinforcement learning (RL), with many new methods claiming significant improvements with minimal or no external supervision. Surprisingly, some studies even suggest that random or incorrect reward signals can enhance reasoning performance. However, these breakthroughs are mostly reported on the Qwen2.5 model family and evaluated on well-known benchmarks such as MATH-500, AMC, and AIME, while failing to achieve similar gains on other models like Llama, which warrants further investigation. Our analysis shows that although Qwen2.5 achieves strong mathematical reasoning performance, its pretraining on large-scale web corpora makes it vulnerable to data contamination in popular benchmarks. As a result, results derived from these benchmarks may be unreliable. To address this, we introduce a generator that produces fully synthetic arithmetic problems of arbitrary length and difficulty, yielding a clean dataset we call RandomCalculation. Using these leakage-free datasets, we show that only accurate reward signals consistently improve performance, while noisy or incorrect signals do not. We advocate for evaluating RL methods on uncontaminated benchmarks and across diverse model families to ensure trustworthy conclusions.
PDF451July 15, 2025