Verstärkungslernen für das Schließen in großen Sprachmodellen mit einem einzigen TrainingsbeispielReinforcement Learning for Reasoning in Large Language Models with One
Training Example
Wir zeigen, dass Reinforcement Learning mit verifizierbarer Belohnung anhand eines einzigen Trainingsbeispiels (1-Shot RLVR) effektiv ist, um die mathematischen Denkfähigkeiten großer Sprachmodelle (LLMs) zu fördern. Durch die Anwendung von RLVR auf das Basismodell Qwen2.5-Math-1.5B identifizieren wir ein einzelnes Beispiel, das die Modellleistung auf MATH500 von 36,0 % auf 73,6 % steigert und die durchschnittliche Leistung über sechs gängige mathematische Denkbenchmarks von 17,6 % auf 35,7 % verbessert. Dieses Ergebnis entspricht der Leistung, die mit der 1,2k DeepScaleR-Teilmenge (MATH500: 73,6 %, Durchschnitt: 35,9 %) erzielt wird, die das genannte Beispiel enthält. Ähnlich deutliche Verbesserungen werden über verschiedene Modelle (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL-Algorithmen (GRPO und PPO) und unterschiedliche mathematische Beispiele hinweg beobachtet (von denen viele eine Verbesserung von etwa 30 % oder mehr auf MATH500 bewirken, wenn sie als einzelnes Trainingsbeispiel verwendet werden). Darüber hinaus identifizieren wir einige interessante Phänomene während des 1-Shot RLVR, darunter domänenübergreifende Generalisierung, eine erhöhte Häufigkeit von Selbstreflexion und eine anhaltende Verbesserung der Testleistung, selbst nachdem die Trainingsgenauigkeit gesättigt ist – ein Phänomen, das wir als Post-Sättigungs-Generalisierung bezeichnen. Zudem bestätigen wir, dass die Wirksamkeit von 1-Shot RLVR hauptsächlich auf den Policy-Gradient-Verlust zurückzuführen ist, was es vom „Grokking“-Phänomen unterscheidet. Wir zeigen auch die entscheidende Rolle der Förderung von Exploration (z. B. durch Hinzufügen eines Entropieverlusts mit einem geeigneten Koeffizienten) beim 1-Shot RLVR-Training. Als Bonus beobachten wir, dass die alleinige Anwendung des Entropieverlusts ohne jegliche Ergebnisbelohnung die Leistung von Qwen2.5-Math-1.5B auf MATH500 um 27,4 % deutlich verbessert. Diese Erkenntnisse können zukünftige Arbeiten zur Dateneffizienz von RLVR inspirieren und eine Neubewertung sowohl der jüngsten Fortschritte als auch der zugrunde liegenden Mechanismen in RLVR anregen. Unser Code, Modell und Daten sind Open Source unter https://github.com/ypwang61/One-Shot-RLVR verfügbar.