ChatPaper.aiChatPaper

Рассуждение или запоминание? Ненадежные результаты обучения с подкреплением из-за загрязнения данных

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

July 14, 2025
Авторы: Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang
cs.AI

Аннотация

Способности крупных языковых моделей (LLMs) к логическому рассуждению уже давно являются предметом активных исследований. В последних работах эти способности были дополнительно улучшены с использованием обучения с подкреплением (RL), причем многие новые методы заявляют о значительном прогрессе при минимальном или полном отсутствии внешнего контроля. Удивительно, но некоторые исследования даже предполагают, что случайные или некорректные сигналы вознаграждения могут улучшить результаты рассуждений. Однако эти прорывы в основном сообщаются для семейства моделей Qwen2.5 и оцениваются на известных бенчмарках, таких как MATH-500, AMC и AIME, тогда как на других моделях, таких как Llama, аналогичные улучшения не достигаются, что требует дальнейшего изучения. Наш анализ показывает, что, хотя Qwen2.5 демонстрирует высокую производительность в математических рассуждениях, её предварительное обучение на крупномасштабных веб-корпусах делает её уязвимой к загрязнению данных в популярных бенчмарках. В результате выводы, полученные на основе этих бенчмарков, могут быть ненадежными. Для решения этой проблемы мы представляем генератор, который создает полностью синтетические арифметические задачи произвольной длины и сложности, формируя чистый набор данных, названный RandomCalculation. Используя эти наборы данных, свободные от утечек, мы показываем, что только точные сигналы вознаграждения стабильно улучшают производительность, тогда как шумовые или некорректные сигналы этого не делают. Мы выступаем за оценку методов RL на незагрязненных бенчмарках и на различных семействах моделей для обеспечения достоверных выводов.
English
The reasoning capabilities of large language models (LLMs) have been a longstanding focus of research. Recent works have further enhanced these capabilities using reinforcement learning (RL), with many new methods claiming significant improvements with minimal or no external supervision. Surprisingly, some studies even suggest that random or incorrect reward signals can enhance reasoning performance. However, these breakthroughs are mostly reported on the Qwen2.5 model family and evaluated on well-known benchmarks such as MATH-500, AMC, and AIME, while failing to achieve similar gains on other models like Llama, which warrants further investigation. Our analysis shows that although Qwen2.5 achieves strong mathematical reasoning performance, its pretraining on large-scale web corpora makes it vulnerable to data contamination in popular benchmarks. As a result, results derived from these benchmarks may be unreliable. To address this, we introduce a generator that produces fully synthetic arithmetic problems of arbitrary length and difficulty, yielding a clean dataset we call RandomCalculation. Using these leakage-free datasets, we show that only accurate reward signals consistently improve performance, while noisy or incorrect signals do not. We advocate for evaluating RL methods on uncontaminated benchmarks and across diverse model families to ensure trustworthy conclusions.
PDF571July 15, 2025