START : Raisonneur Autodidacte avec OutilsSTART: Self-taught Reasoner with Tools
Les grands modèles de raisonnement (LRM) tels qu'OpenAI-o1 et DeepSeek-R1 ont démontré des capacités remarquables dans les tâches de raisonnement complexe grâce à l'utilisation de longues chaînes de pensée (Chain-of-thought, CoT). Cependant, ces modèles souffrent souvent d'hallucinations et d'inefficacités en raison de leur dépendance exclusive aux processus de raisonnement internes. Dans cet article, nous présentons START (Self-Taught Reasoner with Tools), un nouveau modèle de langage à grande échelle (LLM) intégrant des outils pour le raisonnement en CoT long, qui améliore significativement les capacités de raisonnement en exploitant des outils externes. Grâce à l'exécution de code, START est capable d'effectuer des calculs complexes, de s'auto-vérifier, d'explorer diverses méthodes et de s'auto-déboguer, répondant ainsi aux limitations des LRM. L'innovation centrale de START réside dans son cadre d'auto-apprentissage, qui comprend deux techniques clés : 1) Hint-infer : Nous démontrons que l'insertion d'indices artificiellement conçus (par exemple, « Attendez, peut-être qu'utiliser Python ici est une bonne idée ») pendant le processus d'inférence d'un LRM stimule efficacement sa capacité à utiliser des outils externes sans nécessiter de données de démonstration. Hint-infer peut également servir de méthode simple et efficace de mise à l'échelle séquentielle en temps de test ; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT) : Hint-RFT combine Hint-infer et RFT en notant, filtrant et modifiant les trajectoires de raisonnement avec invocation d'outils générées par un LRM via Hint-infer, suivi d'un fine-tuning du LRM. Grâce à ce cadre, nous avons fine-tuné le modèle QwQ-32B pour obtenir START. Sur des questions scientifiques de niveau doctorat (GPQA), des benchmarks mathématiques de niveau compétition (AMC23, AIME24, AIME25) et le benchmark de code de niveau compétition (LiveCodeBench), START atteint des taux de précision de 63,6 %, 95,0 %, 66,7 %, 47,1 % et 47,3 %, respectivement. Il surpasse significativement le modèle de base QwQ-32B et atteint des performances comparables au modèle open-weight de pointe R1-Distill-Qwen-32B et au modèle propriétaire o1-Preview.