ChatPaper.aiChatPaper

Verstärkungslernen für das Schließen in großen Sprachmodellen mit einem einzigen Trainingsbeispiel

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

April 29, 2025
Autoren: Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen
cs.AI

Zusammenfassung

Wir zeigen, dass Reinforcement Learning mit verifizierbarer Belohnung anhand eines einzigen Trainingsbeispiels (1-Shot RLVR) effektiv ist, um die mathematischen Denkfähigkeiten großer Sprachmodelle (LLMs) zu fördern. Durch die Anwendung von RLVR auf das Basismodell Qwen2.5-Math-1.5B identifizieren wir ein einzelnes Beispiel, das die Modellleistung auf MATH500 von 36,0 % auf 73,6 % steigert und die durchschnittliche Leistung über sechs gängige mathematische Denkbenchmarks von 17,6 % auf 35,7 % verbessert. Dieses Ergebnis entspricht der Leistung, die mit der 1,2k DeepScaleR-Teilmenge (MATH500: 73,6 %, Durchschnitt: 35,9 %) erzielt wird, die das genannte Beispiel enthält. Ähnlich deutliche Verbesserungen werden über verschiedene Modelle (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL-Algorithmen (GRPO und PPO) und unterschiedliche mathematische Beispiele hinweg beobachtet (von denen viele eine Verbesserung von etwa 30 % oder mehr auf MATH500 bewirken, wenn sie als einzelnes Trainingsbeispiel verwendet werden). Darüber hinaus identifizieren wir einige interessante Phänomene während des 1-Shot RLVR, darunter domänenübergreifende Generalisierung, eine erhöhte Häufigkeit von Selbstreflexion und eine anhaltende Verbesserung der Testleistung, selbst nachdem die Trainingsgenauigkeit gesättigt ist – ein Phänomen, das wir als Post-Sättigungs-Generalisierung bezeichnen. Zudem bestätigen wir, dass die Wirksamkeit von 1-Shot RLVR hauptsächlich auf den Policy-Gradient-Verlust zurückzuführen ist, was es vom „Grokking“-Phänomen unterscheidet. Wir zeigen auch die entscheidende Rolle der Förderung von Exploration (z. B. durch Hinzufügen eines Entropieverlusts mit einem geeigneten Koeffizienten) beim 1-Shot RLVR-Training. Als Bonus beobachten wir, dass die alleinige Anwendung des Entropieverlusts ohne jegliche Ergebnisbelohnung die Leistung von Qwen2.5-Math-1.5B auf MATH500 um 27,4 % deutlich verbessert. Diese Erkenntnisse können zukünftige Arbeiten zur Dateneffizienz von RLVR inspirieren und eine Neubewertung sowohl der jüngsten Fortschritte als auch der zugrunde liegenden Mechanismen in RLVR anregen. Unser Code, Modell und Daten sind Open Source unter https://github.com/ypwang61/One-Shot-RLVR verfügbar.
English
We show that reinforcement learning with verifiable reward using one training example (1-shot RLVR) is effective in incentivizing the math reasoning capabilities of large language models (LLMs). Applying RLVR to the base model Qwen2.5-Math-1.5B, we identify a single example that elevates model performance on MATH500 from 36.0% to 73.6%, and improves the average performance across six common mathematical reasoning benchmarks from 17.6% to 35.7%. This result matches the performance obtained using the 1.2k DeepScaleR subset (MATH500: 73.6%, average: 35.9%), which includes the aforementioned example. Similar substantial improvements are observed across various models (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL algorithms (GRPO and PPO), and different math examples (many of which yield approximately 30% or greater improvement on MATH500 when employed as a single training example). In addition, we identify some interesting phenomena during 1-shot RLVR, including cross-domain generalization, increased frequency of self-reflection, and sustained test performance improvement even after the training accuracy has saturated, a phenomenon we term post-saturation generalization. Moreover, we verify that the effectiveness of 1-shot RLVR primarily arises from the policy gradient loss, distinguishing it from the "grokking" phenomenon. We also show the critical role of promoting exploration (e.g., by adding entropy loss with an appropriate coefficient) in 1-shot RLVR training. As a bonus, we observe that applying entropy loss alone, without any outcome reward, significantly enhances Qwen2.5-Math-1.5B's performance on MATH500 by 27.4%. These findings can inspire future work on RLVR data efficiency and encourage a re-examination of both recent progress and the underlying mechanisms in RLVR. Our code, model, and data are open source at https://github.com/ypwang61/One-Shot-RLVR

Summary

AI-Generated Summary

PDF363April 30, 2025