AceReason-Nemotron 1.1: Fortschritte in mathematischem und programmtechnischem Denken durch Synergie von SFT und RL
AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy
June 16, 2025
Autoren: Zihan Liu, Zhuolin Yang, Yang Chen, Chankyu Lee, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
Zusammenfassung
In dieser Arbeit untersuchen wir die Synergie zwischen supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) bei der Entwicklung leistungsstarker Reasoning-Modelle. Wir beginnen damit, die SFT-Trainingsdaten durch zwei Skalierungsstrategien zu kuratieren: die Erhöhung der Anzahl gesammelter Prompts und die Anzahl der generierten Antworten pro Prompt. Beide Ansätze führen zu bemerkenswerten Verbesserungen der Reasoning-Leistung, wobei die Skalierung der Anzahl der Prompts zu substanzielleren Gewinnen führt. Anschließend untersuchen wir die folgenden Fragen zur Synergie zwischen SFT und RL: (i) Führt ein stärkeres SFT-Modell konsistent zu einer besseren Endleistung nach groß angelegtem RL-Training? (ii) Wie können wir eine geeignete Sampling-Temperatur während des RL-Trainings bestimmen, um Exploration und Exploitation effektiv für eine gegebene SFT-Initialisierung auszubalancieren? Unsere Ergebnisse legen nahe, dass (i) zutrifft, vorausgesetzt, dass ein effektives RL-Training durchgeführt wird, insbesondere wenn die Sampling-Temperatur sorgfältig gewählt wird, um die temperaturangepasste Entropie bei etwa 0,3 zu halten – eine Einstellung, die eine gute Balance zwischen Exploration und Exploitation bietet. Bemerkenswerterweise verringert sich die Leistungslücke zwischen den initialen SFT-Modellen im Laufe des RL-Prozesses erheblich. Durch die Nutzung einer starken SFT-Grundlage und Erkenntnisse über das synergetische Zusammenspiel zwischen SFT und RL übertrifft unser AceReason-Nemotron-1.1 7B-Modell AceReason-Nemotron-1.0 deutlich und erreicht neue State-of-the-Art-Leistungen unter den Qwen2.5-7B-basierten Reasoning-Modellen auf anspruchsvollen Mathematik- und Code-Benchmarks, wodurch die Wirksamkeit unseres Post-Training-Rezepts demonstriert wird. Wir veröffentlichen das Modell und die Daten unter: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B.
English
In this work, we investigate the synergy between supervised fine-tuning (SFT)
and reinforcement learning (RL) in developing strong reasoning models. We begin
by curating the SFT training data through two scaling strategies: increasing
the number of collected prompts and the number of generated responses per
prompt. Both approaches yield notable improvements in reasoning performance,
with scaling the number of prompts resulting in more substantial gains. We then
explore the following questions regarding the synergy between SFT and RL: (i)
Does a stronger SFT model consistently lead to better final performance after
large-scale RL training? (ii) How can we determine an appropriate sampling
temperature during RL training to effectively balance exploration and
exploitation for a given SFT initialization? Our findings suggest that (i)
holds true, provided effective RL training is conducted, particularly when the
sampling temperature is carefully chosen to maintain the temperature-adjusted
entropy around 0.3, a setting that strikes a good balance between exploration
and exploitation. Notably, the performance gap between initial SFT models
narrows significantly throughout the RL process. Leveraging a strong SFT
foundation and insights into the synergistic interplay between SFT and RL, our
AceReason-Nemotron-1.1 7B model significantly outperforms
AceReason-Nemotron-1.0 and achieves new state-of-the-art performance among
Qwen2.5-7B-based reasoning models on challenging math and code benchmarks,
thereby demonstrating the effectiveness of our post-training recipe. We release
the model and data at: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B