DeepSeek-R1: Anreizung der Fähigkeit zur Schlussfolgerung in LLMs durch
Reinforcement LearningDeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning
Wir stellen unsere Reasoning-Modelle der ersten Generation vor, DeepSeek-R1-Zero und DeepSeek-R1. DeepSeek-R1-Zero, ein Modell, das durch groß angelegtes Reinforcement-Learning (RL) ohne überwachtes Feintuning (SFT) als vorläufiger Schritt trainiert wurde, zeigt bemerkenswerte Reasoning-Fähigkeiten. Durch RL entwickelt DeepSeek-R1-Zero natürlicherweise zahlreiche leistungsstarke und faszinierende Reasoning-Verhaltensweisen. Es sieht sich jedoch Herausforderungen wie schlechter Lesbarkeit und Sprachvermischung gegenüber. Um diese Probleme anzugehen und die Reasoning-Performance weiter zu verbessern, stellen wir DeepSeek-R1 vor, das mehrstufiges Training und Cold-Start-Daten vor dem RL integriert. DeepSeek-R1 erreicht eine Leistung, die mit OpenAI-o1-1217 bei Reasoning-Aufgaben vergleichbar ist. Um die Forschungsgemeinschaft zu unterstützen, stellen wir DeepSeek-R1-Zero, DeepSeek-R1 und sechs dichte Modelle (1,5B, 7B, 8B, 14B, 32B, 70B) vor, die auf Qwen und Llama basierend aus DeepSeek-R1 destilliert wurden, als Open Source zur Verfügung.