DeepSeek-R1 : Encourager la capacité de raisonnement dans les LLMs via l'apprentissage par renforcementDeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning
Nous présentons nos modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1. DeepSeek-R1-Zero, un modèle entraîné via un apprentissage par renforcement à grande échelle (RL) sans ajustement fin supervisé (SFT) en tant qu'étape préliminaire, démontre des capacités de raisonnement remarquables. Grâce au RL, DeepSeek-R1-Zero émerge naturellement avec de nombreux comportements de raisonnement puissants et intrigants. Cependant, il rencontre des défis tels que la faible lisibilité et le mélange de langues. Pour résoudre ces problèmes et améliorer davantage les performances de raisonnement, nous introduisons DeepSeek-R1, qui intègre un entraînement multi-étapes et des données de démarrage à froid avant le RL. DeepSeek-R1 atteint des performances comparables à OpenAI-o1-1217 sur des tâches de raisonnement. Pour soutenir la communauté de recherche, nous mettons en open source DeepSeek-R1-Zero, DeepSeek-R1, et six modèles denses (1.5B, 7B, 8B, 14B, 32B, 70B) distillés de DeepSeek-R1 basés sur Qwen et Llama.